Analyse des données Python: Analyse de régression

Dans une analyse de données importante, l'analyse de régression est une technologie de modélisation prévue, en étudiant la relation entre les variables (cibles) et les arguments (prévisions). Cette technique est souvent utilisée pour prédire la cause de la relation de causalité entre analyse, séries chronologiques et variables de détection. Par exemple, la relation entre le conducteur téméraire du conducteur et le nombre d'accidents de la route sont le retour.

Les principaux scripts d'application de l'analyse de la régression sont des prévisions et des contrôles, tels que la planification, le développement de KPI, les paramètres de la cible, etc également comparables et analysés prédisent les données et les données réelles, identifient les événements. Le niveau de développement et de guide directionnel pour les actions futures.
Les algorithmes de régression courants comprennent la régression linéaire, la régression binaire, la régression du logarithme, la régression des indicateurs, le SVM nucléaire, Ridge Retour, Lasso, V.V.

Coefficient de corrélation d'analyse régressif:

Le processus de régression est généralement Y = AX + B, où est le coefficient de régression de la variable X, le coefficient de corrélation est R, le coefficient de détermination est le coefficient de régression R2

: la valeur absolue de sa valeur absolue peut illustrer le taux de variables et variables

Facteur de décision: Index des variables dues aux variables, est le taux de carré de régression et du rapport de la séparation totale, coefficient de corrélation: également appelé coefficient d'explication, et Degré de corrélation entre variables, essence est un jugement sur la corrélation linéaire

]
S'il existe des résultats de nombreux arguments R2 représentant les deux effets indépendants de ces deux arguments. S'il n'y a qu'une seule variable indépendante en régression linéaire, le facteur spécifié par le carré du coefficient de corrélation.

Coefficient de régression et coefficient de corrélation supérieur à 0, corrélation positive; Moins de 0, corrélation négative.

Utilisez le modèle de régression pour faire attention aux modifications des variables, si une variable indépendante est ajoutée ou uneIl est important d'être manquant, entraînera la déviation des paramètres du modèle, prédire de manière incorrecte; Si la plage d'arguments dépasse la périmètre de formation précédente, le modèle d'origine ne doit pas s'appliquer.

Le facteur d'identification est souvent utilisé comme indicateur de référence principal du montage et lorsqu'un nouvel indicateur est ajouté au modèle, le modèle n'est pas modifié et ne peut pas inverser la plage importante des indicateurs en fonction des coefficients déterminés. Par exemple, l'indicateur n'est pas valide (ou valide).

Sélection de l'algorithme d'analyse de la régression:

La ligne conventionnelle la plus courante, la plus courante, basée sur les plus petites carrés premium; Convient aux structures de données, structures de données simples.

Si les virements de données peuvent être détectés par le scénario distribué, la régression entre variables et en raison des variables détectées, puis la méthode de régression à utiliser

Un linéaire linéaire linéaire puissant entre variables, utilisant des algorithmes de nombreux produits de cuivreLinéaire, tel que l'algorithme de régression de la crête.

S'il y a beaucoup de bruit de l'ensemble de données, régression du composant principal

sous variables de latitude élevée, veuillez utiliser régulièrement Régression de meilleures méthodes, telles que Lasso, Ridge et ElasticNet, ou en utilisant une régression étape par étape de la désactivation des effets des variables indépendantes importantes pour configurer des règles de modèles de récupération.

Vérifiez simultanément de nombreux algorithmes et souhaitez choisir un bon algorithme, à l'aide d'une authentification croisée pour effectuer plusieurs comparaisons d'effets de modèle et passez la place carrée, carré carré, carré Ruge R-Ruge r , BIC et beaucoup de repos, des indicateurs de termes erreurs.

Tournant dans une explication, une régression linéaire, un virage de détail, une régression logarithmique, deux ou des polynômes retournés à la régression nucléaire, support de vecteur de vecteur

Méthode d'intégration, vous pouvez utiliser l'algorithme intégré pour utiliser l'algorithme de confirmation à utiliser.

Déployer le code Python:

Entrez dans la forme de NP

Entrez le panda comme PD

Entrer dans Bayesianridge, Lonearression, Elastnet ]
de sklearn.svm Entrez SVR

de sklearn.ensemble.graient_boosting entrez gradientboostingratationRards # Algorithme intégré

Importation cross_val_score # Cross_val_score # Croix Vérification À partir d'Expla Import Sklearn .Metricsined_variance_score, moyenne_absolute_error , moyenne_squared_error, r2_score

Importation Matplotlib.pyplot est PLT

Entrer dans la mer comme SNS

% Matplotlib Inline

# Entrez des données

df = pd.read_csv ('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv',
Usecols = ["lstat", "Indiffusé", "Indel" , 'NOX', 'RM', 'MEDV'])

SNS.SET (Style = 'WashGrid', context = 'Notebook' #style Type de contrôle, toile de fond de contrôle de la mode par défaut

Sns.PairPlot (DF, taille = 2)

PLT.SAVEFIG ('x.png')

# CD = DF.CORL () [ )

# Corrélation d'image thermique

Sns.heatsmap (Cor, CMAP = 'gnbu_r', Square = true, Annot = true)

Plt.savefig ('xx.png')

La variable LSTAT est liée à la corrélation négative entre le MEDV transformé, la variable RM indépendante et la forte corrélation de MEDV

# 自 4. = DF [[ Lstat ',' rm ']. Valeur

# En raison de variables
Y = DF [DF.Columns [-1]. Valeur
# Définissez le nombre de confirmation croisée
n_folds = 5

# 建立贝叶斯贝叶斯

Br_model = Bayesianridge ()

# 普通

LR_MODEL = LINARRRERREGRESTION ()
# Modèle de régression de réseau élastique

(elasticnet ()

# Supporte la machine de vecteur sous réserve

SVR_Model = SVR ()

# Modèle de régression de régression d'objet

GBr_model = gradientboostingratations ()

# Nom Liste de modèle

Model_Names = ["Bayesianridge '," Linearregrionion "," Eastecet "," SVR "," GBR "] # # Modèle de régression différent

[BR_Model, LR_Model, etc._model, SVR_Model, GBR_Model, SVR_Model, GBR_Model]

# Résultats de la vérification croisée

] CV_SCORE_LIST =
# Chaque modèle de régression prédit la liste de liste Y

[] []
# Lisez chaque régression du modèle d'objet

pour le modèle dans MODÈLE_DIC :
# Entrez chaque modèle de régression sur les contrôles croisés

Points = cross_val_score (modèle, x, y, cv = n_folds)

# Définir les résultats croisés aux résultats Liste

CV_SCORE_LIST.AppEND

# Les prévisions obtenues dans la formation de régression sont stockées dans la liste

pré_y_list.append (modèle.fit (x, y). Prédiction (x))

### Evaluation Modèle Effects CHPayer ###
# Obtenir le nombre d'échantillons, caractéristiques

N_SAMPLE, N_CHOPPING = X.Shape

# 回归评评

Model_metrics_name = [Explanation_variance_score , moyenne_absolute_error, moyenne_squared_error, r2_score]

# Réfective Indicateur d'indicateur

Model_metrics_list = []
Pré -_y dans Pre_Y_List:

Liste des résultats temporaires

TMP_List =

# # 每 [
Pour MDL dans Model_metrics_Name:
# Calculez chaque résultat de l'indice de régression
.

TMP_SCORE = MDL (Y, PRE_Y)

# 将存

TMP_LIST.Append (TMP_Score)

# Définissez les résultats à la liste d'évaluation de la régression

Modèle_metrics_list.append (tmp_list
df_score = pd.dataframe (cv_score_list, index = modèles_names)
df_met = pd.dataframe (modèle_metrics_list, index = modèles_ames, colonne = ['ev ',' Mae ',' MSE ',' R2 ']

# Chaque résultat d'authentification croisée

DF_SCORE

# Résultats d'évaluation différents

DF_MET

###
# Créer une toile
PLT. Figure (Figsize = (9, 6))
# Liste de couleurs
Color_list = ['R', 'G', 'B', 'Y', 'Y'
# 循结果
Pour I, Pre_y Dans la liste:
# # # 子

PLT.SUBPLOT (2, 3, I + 1) # 原原

PLT.PLOT (NP.Range (x.Shape (x.Shape [0]), Y, couleur = 'k', étiquette = 'y')

Ligne prédite

PLT.PLOT (NP.Shape [0]), Pre_Y, Color_List [I], étiquette = Model_Names [I]

PLT.LGEND (LOC = ' Plomb côté gauche ')

Plt.savefig (' xxx .png ')

La régression de l'amélioration de l'altitude peut être vue sur (GBR) est le meilleur effet dans Tous les modèles
Exploiting_variance_score: expliquez la distance du modèle de régression, la valeur de la valeur est [0, 1] , Plus procheO 1 Plus les variables peuvent expliquer la variance des variables, plus la valeur est petite, les effets pires. MANIER_ABSOLUTE_ERROR: Une erreur absolue moyenne (MAE) est utilisée pour évaluer le niveau de résultats prédictifs et des ensembles de données réels, la valeur des meilleurs effets. : signifie Erreur carrée, MSE, carré et calcul moyen de l'égalité pour installer des données et des données brutes correspondant aux points d'échantillonnage, effets une meilleure combinaison, l'effet approprié que possible. R2_SCORE: facteur d'identification, sa signification est également la variance du modèle de régression et la plage de valeurs est [0, 1], plus proche de 1, plus les variables peuvent être expliquées par des variables. Modifiez la variance, plus la valeur est petite, l'effet est pire. [ "Analyse des données Python et analyse de données" Tianlong

Sujets

Arguments

Catégories

Outils de données