Pour calculer les statistiques de base: moyenne, moyenne, écart types, variance, corrélation de coefficients, incorrèteolaire
]
En utilisant la fonction suivante, en supposant que x et y est vectoriel:[12)
SD (x)
var (x
COR (x, y)
COV (x, y)
Discussion
Lorsque j'ai ouvert les documents R, je souhaite trouver des chapitres comme des "étapes pour calculer les écarts types". Mais je constate qu'il est nécessaire de résoudre ce problème important pour lire le contenu de l'ensemble du chapitre.
En fait, ce n'est pas trop compliqué.
Utilisez des fonctions très simples pour calculer les statistiques de base telles que des écarts types. Habituellement, le paramètre de la fonction est un vecteur, puis la fonction retournera la fonction données calculées:
& GT; x & lt; - C (0, 1 1, 2, 3, 5, 8, 13,21, 34)
& GT; Moyenne (x)
[1] 8.8
& GT; médiane (x)
4
& gt; SD (x)
11.03328
.
& GT; Var (x)
La fonction SD calcule la norme d'échantillonnage, calculatrice var est la variance de l'échantillon.
Les fonctions COR et COV sont calculées en deux coefficients de corrélation de vecteur et la mauvaise direction:
Code
& GT; X & lt; - C (0, 1.1, 2, 3, 5, 8, 13, 21, 34)
& GT; Y & LT; - journal (x + 1)
& gt; Cor X, Y)
& GT; COV (x, y)
[1] 11.49988
Ces fonctions sont sensibles à Na. Tant que la valeur NA en vecteur, la fonction retournera NA et même des erreurs:
& gt; X & lt; - C (0, 1, 1, 2, 3, NA)
& GT; SD (x)
[1] NA
[Ce type d'aile carémarquée est triste, mais cela devrait le faire. Soyez prudent de répondre à cette situation. NA est-il dans les données Statistiques sans signification? Si oui, r est correct. Sinon, le paramètre Na.rm peut être réglé sur true et la valeur NA est ignorée:
& GT; X & lt; - C (0, 1, 1, 2, 3, NA)
& GT; des moyens (x, na.rm = vrai)
[12]
& GT; SD (x, na.rm = true)
Les fonctions de support et de SD peuvent gérer intelligemment les zones de données. Ils savent que chaque colonne de la boîte de données est une variable différente, alors elles calculent des statistiques d'une pièce. L'exemple suivant calcule une statistique de base d'une zone de données avec trois colonnes:
& GT; Imprimer (dframe)
1 0,6739635 10 526448 99.83624
2 1 5524619 9.205156 100 70852 11.427756 99.73202
5 1.3107692 9.763317 100 74444
6 2.1739663 9.80662 98.58961
.
] [123330 100.46724 10 0,7767406 7,949692 100.49814 & GT; SD (DFRAMAME) Small gros 0.5844025 0.9920281 0.99205498 Comme on peut le voir, à la fois la valeur moyenne et la valeur de la SD Les trois valeurs suivantes correspondent à la Trois colonnes dans la zone de données. (Spécifiquement, il renvoie un vecteur avec trois éléments, le nom vient du nom de chaque colonne dans la zone de données.) Les fonctions var peuvent également comprendre la zone de données, mais Phuong Sa méthode de traitement signifie et SD a Différents composants. Ils calculent la variance entre les deux colonnes de la zone de données, renvoient la matrice de variance: & GT; Var (DFRAME) Moyen petit Si X est la boîte de données ou la matrice, Cor (x) renvoie la matrice de corrélation, le COV retournera la matrice non liée: & GT; Cor (DFrame) Small Small 1.00000000 . . & GT; COV (DFRAME) BIG-0.04005275 BIG VASE -0,146607 1.000000 moyenne moyenne -09253855 0.66186326 Malheureusement, la fonction médiane n'est pas affectée des données. Des boites. Pour calculer la valeur moyenne de chaque colonne dans la zone de données, vous devez utiliser la fonction nulle pour appliquer haM moyenne pour chaque colonne de la boîte de données.