Cet article, parlons de toutes les personnes relativement utilisées couramment utilisées les coefficients de corrélation couramment utilisés. Le coefficient de corrélation est un indicateur quantique pour corréler en fonction du nombre de corrélations entre les deux variables. Par exemple, si vous souhaitez déterminer s'il existe une corrélation entre la bière et la couche, vous pouvez calculer le coefficient de corrélation de ces deux variables et évaluer la corrélation entre les deux variables du coefficient de corrélation. Il existe trois coefficients de corrélation principaux: coefficient de corrélation de Pearson, coefficient de corrélation de Spearman et coefficient de corrélation Kendall τ. Les gens devraient savoir qu'il devrait être utilisé par Pearson. Mais le coefficient de Raman et l'élément Kendall peuvent ne pas savoir. Parlez de ces trois coefficients.
1. Le coefficient de corrélation de Pearson
La première chose à faire connaître le coefficient de corrélation de Pearson, dans le coefficient de corrélation de Pradeson précédent, veuillez parler d'un concept et de sans rapport. L'erreur est utilisée pour montrer l'erreur globale de deux variables et de variance utilisées uniquementExprimer une erreur variable. La formule de la loi de la loi est la suivante:
C corrélations utilisées pour montrer la corrélation entre les deux variables, pourquoi la variance peut indiquer la corrélation entre les deux variables.? Nous devons commencer à partir de la formule du mauvais moyen. Grâce à la formule ci-dessus, nous pouvons voir que l'Union est égale à la différence entre la différence entre les deux variables et la valeur moyenne.
Si la relation taille entre la variable X et sa moyenne est parfaitement compatible avec la variable, la valeur de la variable X et Y est encore supérieure à la valeur moyenne et de la clinique. Obtenir à ce moment-là positif. Et le mauvais moment est maximisé; Si la relation de taille entre la variable X et sa moyenne est le contraste, il s'agit de la plus grande variable X qui signifie que c'est que le virage n'est inférieur à sa moyenne, cette fois, la différence de covarar est négative et que les liens de variance sont minimisés; Si la taille de la variable X convient à la taille moyenne, le produit seraHo Pole, cette fois est le mauvais moment est compris entre le maximum et le minimum. Trois des variables X et Y sont présentées ci-dessous:
L'usine d'enseignement synchrone relativement vulnérable est affectée par des dimensions, quelle est la taille, par exemple, une unité, une hauteur de l'âge et de l'âge n'est pas une unité. Lorsque la différence entre les variables X et Y est grande, elle aura un impact important sur la différence de l'union non liée. Dans l'image ci-dessous, les tendances X et Y à gauche et à droite sont fondamentalement cohérentes, mais parce que la taille est différente (voir les valeurs de coordonnées verticales), le souvenir est calculé enfin ensemble.
Le tableau suivant montre que le jeu de données utilisé dans l'image ci-dessus et les camarades de classe intéressants peuvent être basés sur le public.
Que devons-nous faire avec l'effet sur l'effet sur cette taille différente? La tendance est clairement cohérente, mais le mauvais moment sera différent. Ce qui est causé, qu'est-ce que nous utilisons ce qui est résolu? La raison pour laquelle la différence de chosesLa différence est excellente principalement en raison de différentes raisons de la taille, puis nous allons passer à tour, comment obtenir la balance? De plus, en plus des différences dans la mauvaise direction, l'écart type de chaque variable peut éliminer l'impact de différentes tailles, la formule spécifique est la suivante:
La formule est la formule du coefficient de corrélation, ce qui signifie la valeur de Pearson, la valeur de ce coefficient est comprise entre [-1, 1] et lorsque la valeur supérieure à 0, deux variables ont une corrélation positive et une corrélation plus forte; Lorsque la valeur est inférieure à 0, les deux variables ont une corrélation négative, plus la valeur est rapprochée, plus la relation.
La mauvaise pratique ne sera pas seulement affectée par les tailles, mais également affectée par une valeur inhabituelle. S'il y a une valeur inhabituelle pour faire glisser ou faire glisser la moyenne moyenne, le résultat sera dévié au résultat final du calcul.
2. Coefficient de Spearman
Voir le coefficient de corrélation (Spearman)).
Nous avons enseigné l'influence de cEvil Factor Peelson, cela rendra le résultat final biaisé et il n'ya aucun moyen d'éviter cette situation. Tissu en laine? La réponse est le coefficient de Raman du classement de nos sections. Pourquoi cela peut-il éviter une influence de valeurs inhabituelles? En effet, cette méthode n'utilise pas la valeur absolue de la variable, mais la commande absolue de la variable est utilisée, la commande organise toutes les valeurs variables de petites à grandes, elle signe le fruit est très efficace. La formule du coefficient de RaRarman est la suivante:
3. Classement de Kendall Coefficient de corrélation τ
L'élément SPSERMAN est l'ordre dans lequel le traitement des prix dans Les variables sont utilisées à la place de la variable initiale et une autre corrélation de rang similaire appelée Kendall Classement Coefficient de corrélation τ. Cette méthode de coefficient associée est également l'ordre dans lequel apparaît des variables, mais elle est légèrement différente du coefficient de corrélation de la Spearman.
La méthode spécifique est la suivante: d'abord pour organiser la variable x, puis le tournerÀ partir de la première fois, en mettant en œuvre en permanence deux deux comparaisons et en examinant éventuellement l'augmentation des variables de l'augmentation de l'augmentation, de la quantité et de la corrélation entre les deux variables déterminées par l'augmentation et la quantité de comparaison diminue.
Comme indiqué dans la figure ci-dessous, après avoir effectué la variable X, nous commençons deux ou deux variables médicales de la première valeur, totalisez la comparaison totale: (1, 3), (1, 6 ), (1, 4), (3, 6), (3, 2), (3, 2), (3, 5), (3, 4), (6, 2), (6, 2), (6, 2), (6, 2). 5), (6, 4), (2, 4), puis nous voyons à quel point les combinaisons plus grandes, moins de combien.
Si la valeur d'une augmentation de l'augmentation de x augmente, la diminution de la valeur diminue et la correction positive entre les deux variables sera décrite. Si la valeur de l'augmentation de l'augmentation de l'augmentation de l'augmentation des variables médicales, une valeur réduite, une corrélation d'une combinaison de plus en plus négative de deux variables; Si la hausse de l'augmentation à son tour augmentera la valeur et la valeur diminue sous forme de x quantité relative, indiquant queJ'ai corrélé entre les deux variables relativement faibles.
4. SOMMAIRE
ci-dessus est une brève introduction de trois coefficients de corrélation différents, généralement tout le monde devrait être associé au premier pieron que le facteur de compréhension sache, mais les deux ont deux inhabituellement plus commun que le premier et plus de scénarios, particulièrement affectant une anomalie.
Bien sûr, il ne faut pas avoir à le calculer manuellement dans le processus d'utilisation de ces méthodes. Les gens ont juste besoin de comprendre les principes. Ces coefficients associés ont les fonctions créées dans Python pour que vous puissiez utiliser. Df.corr () Les gens doivent l'utiliser, je ne sais pas si vous avez vu les paramètres de cette fonction, cette fonction dispose d'un paramètre de méthode, disponible dans ce paramètre: "Pearson", Spearman "," Kendall ", respectivement correspondant à nos trois coefficients ci-dessus.