Dans une analyse de données importante, l'analyse de régression est une technologie de modélisation prévue, en étudiant la relation entre les variables (cibles) et les arguments (prévisions). Cette technique est souvent utilisée pour prédire la cause de la relation de causalité entre analyse, séries chronologiques et variables de détection. Par exemple, la relation entre le conducteur téméraire du conducteur et le nombre d'accidents de la route sont le retour.
Les principaux scripts d'application de l'analyse de la régression sont des prévisions et des contrôles, tels que la planification, le développement de KPI, les paramètres de la cible, etc également comparables et analysés prédisent les données et les données réelles, identifient les événements. Le niveau de développement et de guide directionnel pour les actions futures.
Les algorithmes de régression courants comprennent la régression linéaire, la régression binaire, la régression du logarithme, la régression des indicateurs, le SVM nucléaire, Ridge Retour, Lasso, V.V.
Coefficient de corrélation d'analyse régressif:
: la valeur absolue de sa valeur absolue peut illustrer le taux de variables et variables
Facteur de décision: Index des variables dues aux variables, est le taux de carré de régression et du rapport de la séparation totale, coefficient de corrélation: également appelé coefficient d'explication, et Degré de corrélation entre variables, essence est un jugement sur la corrélation linéaire
]
S'il existe des résultats de nombreux arguments R2 représentant les deux effets indépendants de ces deux arguments. S'il n'y a qu'une seule variable indépendante en régression linéaire, le facteur spécifié par le carré du coefficient de corrélation.
Coefficient de régression et coefficient de corrélation supérieur à 0, corrélation positive; Moins de 0, corrélation négative.
Utilisez le modèle de régression pour faire attention aux modifications des variables, si une variable indépendante est ajoutée ou uneIl est important d'être manquant, entraînera la déviation des paramètres du modèle, prédire de manière incorrecte; Si la plage d'arguments dépasse la périmètre de formation précédente, le modèle d'origine ne doit pas s'appliquer.
Le facteur d'identification est souvent utilisé comme indicateur de référence principal du montage et lorsqu'un nouvel indicateur est ajouté au modèle, le modèle n'est pas modifié et ne peut pas inverser la plage importante des indicateurs en fonction des coefficients déterminés. Par exemple, l'indicateur n'est pas valide (ou valide).
Sélection de l'algorithme d'analyse de la régression:
La ligne conventionnelle la plus courante, la plus courante, basée sur les plus petites carrés premium; Convient aux structures de données, structures de données simples.
Si les virements de données peuvent être détectés par le scénario distribué, la régression entre variables et en raison des variables détectées, puis la méthode de régression à utiliser
Un linéaire linéaire linéaire puissant entre variables, utilisant des algorithmes de nombreux produits de cuivreLinéaire, tel que l'algorithme de régression de la crête.
S'il y a beaucoup de bruit de l'ensemble de données, régression du composant principal
sous variables de latitude élevée, veuillez utiliser régulièrement Régression de meilleures méthodes, telles que Lasso, Ridge et ElasticNet, ou en utilisant une régression étape par étape de la désactivation des effets des variables indépendantes importantes pour configurer des règles de modèles de récupération.
Vérifiez simultanément de nombreux algorithmes et souhaitez choisir un bon algorithme, à l'aide d'une authentification croisée pour effectuer plusieurs comparaisons d'effets de modèle et passez la place carrée, carré carré, carré Ruge R-Ruge r , BIC et beaucoup de repos, des indicateurs de termes erreurs.
Tournant dans une explication, une régression linéaire, un virage de détail, une régression logarithmique, deux ou des polynômes retournés à la régression nucléaire, support de vecteur de vecteur
Méthode d'intégration, vous pouvez utiliser l'algorithme intégré pour utiliser l'algorithme de confirmation à utiliser.
Déployer le code Python:
Entrez dans la forme de NP
Entrez le panda comme PD
Entrer dans Bayesianridge, Lonearression, Elastnet ]
de sklearn.svm Entrez SVR
Importation cross_val_score # Cross_val_score # Croix Vérification À partir d'Expla Import Sklearn .Metricsined_variance_score, moyenne_absolute_error , moyenne_squared_error, r2_score
Importation Matplotlib.pyplot est PLT
Entrer dans la mer comme SNS
% Matplotlib Inline
# Entrez des données
df = pd.read_csv ('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv',Usecols = ["lstat", "Indiffusé", "Indel" , 'NOX', 'RM', 'MEDV'])
SNS.SET (Style = 'WashGrid', context = 'Notebook' #style Type de contrôle, toile de fond de contrôle de la mode par défaut
Sns.PairPlot (DF, taille = 2)
PLT.SAVEFIG ('x.png')
# CD = DF.CORL () [ )
# Corrélation d'image thermiqueSns.heatsmap (Cor, CMAP = 'gnbu_r', Square = true, Annot = true)
Plt.savefig ('xx.png')
La variable LSTAT est liée à la corrélation négative entre le MEDV transformé, la variable RM indépendante et la forte corrélation de MEDV
# 自 4. = DF [[ Lstat ',' rm ']. Valeur
# En raison de variables
Y = DF [DF.Columns [-1]. Valeur
# Définissez le nombre de confirmation croisée
n_folds = 5
# 建立 贝叶斯 贝叶斯
Br_model = Bayesianridge ()
# 普通
LR_MODEL = LINARRRERREGRESTION ()
# Modèle de régression de réseau élastique
(elasticnet ()
# Supporte la machine de vecteur sous réserveSVR_Model = SVR ()
# Modèle de régression de régression d'objet
GBr_model = gradientboostingratations ()
# Nom Liste de modèleModel_Names = ["Bayesianridge '," Linearregrionion "," Eastecet "," SVR "," GBR "] # # Modèle de régression différent
[BR_Model, LR_Model, etc._model, SVR_Model, GBR_Model, SVR_Model, GBR_Model]
# Résultats de la vérification croisée
] CV_SCORE_LIST =
# Chaque modèle de régression prédit la liste de liste Y
[] []
# Lisez chaque régression du modèle d'objet
pour le modèle dans MODÈLE_DIC :
# Entrez chaque modèle de régression sur les contrôles croisés
Points = cross_val_score (modèle, x, y, cv = n_folds)
# Définir les résultats croisés aux résultats Liste
CV_SCORE_LIST.AppEND
# Les prévisions obtenues dans la formation de régression sont stockées dans la liste
pré_y_list.append (modèle.fit (x, y). Prédiction (x))
### Evaluation Modèle Effects CHPayer #### Obtenir le nombre d'échantillons, caractéristiques
N_SAMPLE, N_CHOPPING = X.Shape
# 回归 评 评Model_metrics_name = [Explanation_variance_score , moyenne_absolute_error, moyenne_squared_error, r2_score]
# Réfective Indicateur d'indicateur
Model_metrics_list = []
Pré -_y dans Pre_Y_List:
Liste des résultats temporaires
TMP_List =
# # 每 [Pour MDL dans Model_metrics_Name:
# Calculez chaque résultat de l'indice de régression
.
TMP_SCORE = MDL (Y, PRE_Y)
# 将 存TMP_LIST.Append (TMP_Score)
# Définissez les résultats à la liste d'évaluation de la régression
Modèle_metrics_list.append (tmp_list
df_score = pd.dataframe (cv_score_list, index = modèles_names)
df_met = pd.dataframe (modèle_metrics_list, index = modèles_ames, colonne = ['ev ',' Mae ',' MSE ',' R2 ']
# Chaque résultat d'authentification croisée
DF_SCORE
# Résultats d'évaluation différents
DF_MET
#### Créer une toile
PLT. Figure (Figsize = (9, 6))
# Liste de couleurs
Color_list = ['R', 'G', 'B', 'Y', 'Y'
# 循 结果
Pour I, Pre_y Dans la liste:
# # # 子
PLT.SUBPLOT (2, 3, I + 1) # 原 原
PLT.PLOT (NP.Range (x.Shape (x.Shape [0]), Y, couleur = 'k', étiquette = 'y')
Ligne préditePLT.PLOT (NP.Shape [0]), Pre_Y, Color_List [I], étiquette = Model_Names [I]
PLT.LGEND (LOC = ' Plomb côté gauche ')
Plt.savefig (' xxx .png ')
La régression de l'amélioration de l'altitude peut être vue sur (GBR) est le meilleur effet dans Tous les modèles
Exploiting_variance_score: expliquez la distance du modèle de régression, la valeur de la valeur est [0, 1] , Plus procheO 1 Plus les variables peuvent expliquer la variance des variables, plus la valeur est petite, les effets pires. MANIER_ABSOLUTE_ERROR: Une erreur absolue moyenne (MAE) est utilisée pour évaluer le niveau de résultats prédictifs et des ensembles de données réels, la valeur des meilleurs effets. : signifie Erreur carrée, MSE, carré et calcul moyen de l'égalité pour installer des données et des données brutes correspondant aux points d'échantillonnage, effets une meilleure combinaison, l'effet approprié que possible. R2_SCORE: facteur d'identification, sa signification est également la variance du modèle de régression et la plage de valeurs est [0, 1], plus proche de 1, plus les variables peuvent être expliquées par des variables. Modifiez la variance, plus la valeur est petite, l'effet est pire. [ "Analyse des données Python et analyse de données" Tianlong