Skip to main content

Quelle est l'analyse de régression?


L'analyse de la régression est une technologie de modélisation qui prédit la relation entre les variables (cibles) et les arguments (prévisions). Cette technique est souvent utilisée pour prédire la cause de la relation de causalité entre analyse, séries chronologiques et variables de détection. Par exemple, la relation entre le conducteur téméraire du conducteur et le nombre d'accidents de la route sont le retour.


L'analyse de régression est un outil important pour modéliser et analyser les données. Ici, nous utilisons les courbes / la ligne pour correspondre à ces points de données, dans lesquels la distance de la courbe ou de la ligne au point de données est minimisée. Je vais expliquer cela dans la section suivante.
Pourquoi utilisons-nous une analyse de régression?

Comme décrit ci-dessus, l'analyse de régression estime la relation entre deux variables ou plus. Ci-dessous, donnons-nous un exemple simple pour le comprendre:


pour des conditions économiquesN à, vous devez estimer la croissance des ventes d'une entreprise. Maintenant, vous avez les dernières données sur la société, ce qui montre que la croissance des ventes est d'environ 2,5 fois supérieure à la croissance économique. Ensuite, utilisez une analyse de régression, nous pouvons prédire les ventes de la société à l'avenir en fonction des informations actuelles et antérieures.


Les avantages de l'utilisation d'une analyse de régression sont bons. Spécifiquement,
1. Il indique une relation significative entre les arguments et les variables;

2. Il montre que de nombreux arguments ont eu l'impact d'une variable dû.

L'analyse de la régression nous permet également de comparer les interactions entre différentes mesures, telles que le contact entre les changements de prix et les activités de promotion. Les chercheurs sur le marché de l'aide, les analystes de données et les scientifiques de données pour exclure et estimer un ensemble de meilleures variables pour créer des modèles prédictifs.

Combien de techniques sont la régression?

Il existe de nombreux inversions techniquesY pour prédire. Ces technologies ont trois chiffres (la quantité d'argumentation, en raison des variables et des formes de la ligne renvoyée). Nous allons les discuter en détail ci-dessous.

Pour ceux avec des créateurs, si vous pensez qu'il est nécessaire d'utiliser ce paramètre, vous pouvez même créer un modèle de régression qui n'est pas utilisé. Mais avant de commencer, vous pouvez d'abord comprendre les méthodes de régression suivantes:



01 Régression linéaire de régression linéaire

C'est l'une des techniques de modélisation les plus célèbres. La régression linéaire est généralement l'une des techniques préférées des personnes dans l'apprentissage des modèles prédictifs. Dans cette technique, en raison de variables, la transformation automatique peut être continue ou discrète, renvoyer la ligne bien sûr est linéaire.

La régression linéaire utilisant la ligne la plus appropriée (c.-à-d. La ligne de retour) établit la relation entre les variables (Y) et une ou plusieurs variables indépendantes (x).

Utilisez PhuongProcessus pour l'exprimer, c'est-à-dire Y = A + B * x + E, où A représente le blocage, B représente la pente de la ligne et E est un élément incorrect. Cette équation peut prédire la valeur de la variable cible en fonction de la variable prédictive pour (s).


La différence entre la seule régression linéaire et la régression multi-linéaire est une régression linéaire à plusieurs variables. L'unité de régression n'a généralement qu'une variable indépendante. Le problème est maintenant "Comment pouvons-nous avoir une ligne la plus appropriée?"
Comment puis-je obtenir la ligne la plus appropriée (la valeur d'A et B)?
Ce problème peut être effectué facilement en utilisant les plus petits carrés. La méthode la plus petite carrée est également la méthode la plus couramment utilisée pour installer des colonnes. Pour observer les données, il calculera les lignes les plus appropriées en minimisant les couches verticales de chaque point de données. Parce que lors de l'addition, la déviation est carrée carrée, des valeurs donc positives VBien pas pour compenser.

Nous pouvons utiliser l'indice R-carré pour évaluer les performances du modèle. Pour en savoir plus sur ces indicateurs, vous pouvez lire: Indicateur de performance du modèle Partie 1, partie 2.


1. Modifiez et changez qu'il doit y avoir une relation linéaire entre ]


2. Multi-transmission, élément automatique et parallaxité.
3. La régression linéaire est très sensible à l'anomalie. Cela affectera sérieusement la ligne de retour et affectera éventuellement la valeur prédite.
4. La multi-aramnarité augmente l'estimation multilatérale sur le facteur, ce qui estime qu'elle est estimée à être très sensible à de petits changements dans le modèle. Le résultat est une estimation de coefficient instable

5. En cas de nombreux arguments, nous pouvons utiliser la méthode de transition, le refus inverse et chaque méthode de filtrage des étapes pour choisir le plus important tournant de soi.

02 régression logistique de régression logistique

La régression logique est la probabilité de "événement = succès" et "Event = échec". Lorsque le type de variable appartient au binaire (1/0, le bon / mauvais, oui / non), nous devrions utiliser la régression logique. Ici, la valeur de y est de 0 à 1, peut être exprimée de la manière suivante:

Cotes = p / (1-p) = probabilité d'événement / probabilité ne se produit pas d'événements (Cotes) = ln (P / (1-p)) logit (p) = ln (p / (1-p)) = B0 + B1X1 + B2X2 + B3X3 .. + BKXK

dans ce qui précède La formule, p représente la probabilité d'avoir une fonctionnalité. Vous devriez poser une telle question: "Pourquoi devrions-nous utiliser le journal du journal dans la formule?".
Parce que nous utilisons deux distributions (en raison de variables), nous devons sélectionner une fonction de liaison pour cette distribution. C'est la fonction logit. Dans l'équation ci-dessus, les paramètres sont sélectionnés en observant la valeur estimée maximale de l'échantillon, au lieu de minimiser les carrés et les erreurs (par exemple, dans une régression normale).


Points:
1. Il est largement utilisé pour les problèmes de classification.

2. La régression logique ne nécessite pas de variables et de variables est une relation linéaire. Il peut gérer diverses relations car il utilise une conversion de journal non linéaire pour des chapeaux de risque relativement prévisibles ou.


3. Pour éviter les voisins et les sponsors, nous devrions inclure toutes les variables importantes. Il existe un bon moyen de s'assurer qu'il s'agit d'utiliser des méthodes de dépistage de pas pour estimer la régression logique.
4. Il nécessite une grande quantité d'échantillons, car au cas où le nombre de petits échantillons, l'efficacité de l'estimation est meilleure que le facteur carré minimum normal.

5. Les arguments ne sont pas concernés, c'est-à-dire qu'il n'y a pas beaucoup de coordination. Toutefois, en mode Analyse et modèle, nous pouvons choisir d'inclure l'impact des interactions variables de classification.

6. Si la valeur de la variable est une commande variable, elle s'appelle la logique des ordres.


7. S'il estUne variété de variables, elle s'appelle une régression multim logique.

03 Régression de la régression polyvalente


Pour les équations de régression, si l'indice de l'argument est supérieur à 1, il s'agit d'une équation de régression polynomiale.. Comme indiqué dans l'équation suivante: Y = A + B * X ^


Dans cette technologie de régression, un équipement optimal n'est pas une ligne droite. C'est une courbe pour des points de données appropriés.


Touche:


Bien qu'il y ait une touche pouvant convenir aux polynômes de temps et à des erreurs inférieures, cela peut entraîner une coupe excessive. Vous devez dessiner une carte de relation pour voir la bonne situation et vous concentrer sur la garantie d'assurer une doublure raisonnable, inappropriée et sans doublure.

Ce qui suit est une légende, peut aider à comprendre

à la recherche de points de courbe importants pour les deux extrémités pour voir si les formes et les tendances de la manière. Les polynômes de lycée plus élevés vont éventuellement créerRésultats de raisonnement étrange.
04 Étapes de régression étape par étape

Lors de la manipulation de nombreux arguments, nous pouvons utiliser ce formulaire de régression. Dans cette technique, la sélection des arguments est effectuée dans un processus automatisé, y compris une activité non humaine.

Cette victoire consiste à identifier des variables importantes en observant des statistiques, telles que des indicateurs R-Square, carré T et AIC. Retournement progressivement en fonction du modèle en ajoutant / en supprimant un cracker basé sur une norme spécifique.


Certaines des méthodes de régression étape par étape les plus courantes sont énumérées ci-dessous:


Méthode de régression progressivement deux choses. C'est-à-dire que les prévisions nécessaires pour augmenter et supprimer progressivement.

Les options de transition ont commencé avec la prédiction la plus importante dans le modèle, puis ont ajouté des variables pour chaque étape.


Prédire derrière l'arrière est lancé en même temps, puis la variable minimale de signification est retirée à chaque étape.

L'objectif de cette technologie de modélisation est de maximiser la puissance prédictive avec la quantité minimale de variables prédictives. C'est également l'une des méthodes permettant de gérer des ensembles de données de haute taille.
05 Régression de la crête renvoyée

L'analyse de la régression roulante est une technique pour la présence de données de collimatage multiples (hauteur de tournage indépendante). En cas de cuivre linéaire multiple, bien que le plus petit carré (OLS) soit très juste, leur différence est grande, de sorte que la valeur d'observation soit décalée et à l'abri de la valeur réelle. Retournez en ajoutant une déviation en estimant la régression pour réduire les erreurs standard.


Au-dessus, nous avons vu des équations de régression linéaire. Vous souvenez-vous? Il peut être montré comme suit:

Y = A + B * X Cette équation a également une erreur de terme. L'équation complète est la suivante:
Y = A + B * X + E, [Terminologie des défauts est la valeur en vigueur pour corriger la prédiction entre l'observation et la valeur du projetn]

= & gt; Y = A + Y = A + B1X1 + B2X2 + ... + E, pour de nombreuses variables indépendantes.


Dans une équation linéaire, des erreurs prédictives peuvent être décomposées en deux sous-composantes. L'un est une déviation, l'une est une variance. Prédire des erreurs peut causer des composants dans ces deux composants ou quiconque dans les deux. Ici, nous discuterons des erreurs pertinentes causées par la variance.


Ridge est retourné pour résoudre de nombreux problèmes linéaires courants en minimisant les paramètres (Lambda). Regardez la formule
Dans cette formule, il y a deux composants. Le premier est les plus petits carrés, et l'autre est λ2 β2 (carré carré), où β est le coefficient de corrélation. Pour limiter les paramètres pour l'ajouter au boîtier minimum en obtenant une variance très faible.


1. Outre la normale, cette régression est similaire à la plus petite régression normale;



2. Il va réduire la valeur des tuberculesUn coefficient de corrélation, mais n'atteint pas 0, indique qu'il ne dispose pas de la fonction de sélectionner la fonctionnalité

3. Il s'agit de la méthode habituelle et de l'utilisation habituelle L2.
06 Régression de la régression de Lasso

Il était similaire à la régression de la crête, Lasso (l'opérateur de contraction absolu et la moindre sélection) a également puni la valeur absolue du coefficient de régression. Taille. En outre, il peut réduire le niveau de changement et améliorer la précision du modèle de régression linéaire. Voir la formule suivante:

La régression Lasso diffère du bénéfice de la crête et de la pénalité qu'elle utilise est absolue, pas une place. Cela conduit à des pénalités (ou égales à la valeur absolue de l'estimation de la valeur reliant la valeur) pour faire des estimations de paramètres par 0. Plus le Venge de la peine de sanction, plus il est estimé, plus la valeur est maintenant réduite 0. Cela conduira à Sélection de variables à partir d'une variable n donnée.



1. Outre la normale, cette régression est similairerègles moyennes minimales;


2. Il est proche de 0 (égal à 0), ce qui aide à choisir des caractéristiques;

3. Ceci est une méthode régulière, utilise habituellement L1;

Si un ensemble de prédicteurs a une corrélation élevée, Lasso sélectionne l'une des variables et contracte différemment zéro.


07 Régression élastique

ELASTNET est un mélange de techniques de régression de Lasso et de crête. Il utilise L1 pour former et L2 est préféré comme une matrice normale. Elidicnet est utile lorsqu'il y a de nombreuses fonctionnalités connexes. Lasso sélectionnera au hasard l'un d'eux, tandis que élastiques choisira deux.
L'avantage réel entre Lasso et Ridge est qu'il permet à Elanget d'hériter de la stabilité de la crête dans l'état de boucle.


1. Dans le cas d'une variable de corrélation élevée, il crée un effet de groupe;


2. Il n'y a pas de limite au nombre de variables;


3. Il peut supporter une double rétrécissement.


Outre les 7 techniques de régression les plus courantes, vous pouvez également envisager d'autres modèles tels que Bayésien, l'éco-régression et les forts.
Comment choisir le modèle de régression correct?

Lorsque vous connaissez seulement une ou deux technologies, la vie est généralement simple. Si le résultat est continu, utilisez la régression linéaire. Si c'est binaire, utilisez les profits de la logique! Toutefois, dans notre processus de traitement, vous pouvez choisir facilement, plus difficile à choisir. Des situations similaires se produisent également dans le modèle de régression.

Dans le modèle de régression multicouche, la technique la plus importante est très importante basée sur des virages et des variables variables, des données de variables et d'autres caractéristiques de base des données. Vous trouverez ci-dessous un facteur important que vous souhaitez choisir un modèle de régression précis:


1. Discover Data est un composant inévitable dans la construction de modèles anticipés. Lors du choix d'un modèle approprié, il devrait être hiérarchisé lorsque la relation et les effets de la variableforme.
2. Comparez les avantages Pour différents modèles, nous pouvons analyser différents indicateurs, tels que des paramètres statistiques, carré R, Square R-Square, AIC, Bic et des articles de bug, l'un est des maillots de repas. comparer des modèles avec tous les enfants suivants peut (ou les choisir prudemment), vérifiez que la déviation possible se produit dans votre modèle.

3. La vérification croisée est la meilleure méthode pour évaluer les modèles prédictifs. Ici, divisez vos données en deux Copies (une formation et une vérification). Édition simple entre les valeurs d'observation et la mesure de la valeur prédictive de vos prévisions.


4. Si votre jeu de données est une variable mixte, vous ne sélectionnez pas la méthode de choix de modèle automatique, car vous ne voulez pas mettre toutes les variables dans le même modèle en même temps.
5. Cela dépendra également de votre but. Alors peut arriver, un modèle moins puissant à réaliser facilement que un modèleNH a une signification statistique élevée.

6. Les méthodes normales retournées (Lasso, Ridge et Elignet) ont une bonne linéarité à des variables de taille haute et de données.


Sujets

Catégories