Les analystes de données sont définitivement l'une des industries les plus brillantes de l'ère de données, des statistiques et des connaissances de base des analystes de données.
Tendances centrales
Modification NormaliséeDistribution normale de distribution de distribution (normale)
Distribution de l'échantillon
Test d'hypothèse
T-Test)
]
La tendance centrale 1. Nombre
Le nombre de fréquence a une fréquence la plus élevée.
2. Moyen
Organisez la valeur de l'échantillon, distribuée dans la valeur la plus intermédiaire
lorsque le nombre total d'échantillons est impair, la moyenne est accordée à deux (n + 1) / 2 valeurslorsque le nombre total d'échantillons est même, La médiane est N / 2 Nombre et le nombre de valeurs (N / 2) +1
3. Moyenne
Tout le total du total divisé par le nombre de Échantillons.
Résumé: Maintenant, les contacts de tous doivent être moyens, mais parfois avoir un impact important, car certains Eutlier.
Pour un petit exemple, il y a 20 personnes, le revenu de chacun est le même, 19 personnes ont environ 5 000 personnes, mais il y a un camarade de classe pour commencer l'entreprise et je vais entrer 1 milliard. À ce stade, vous vous comptez. Le revenu moyen des camarades de classe est de 5 millions, également bien expliqué. Les données de revenu moyen de toutes les années sont publiées. Les petits amis donneront leur patrie pour leurs pieds, ce qui est parce que le revenu de chacun est moyen, à ce moment-là, "médiane" est plus raisonnable de refléter la situation réelle.
II. Changement
Au-dessus de ladite "Nombre moyen, des échantillons divisés en 2 parties, puis trouver une" moyenne "de ces deux parties et diviser l'échantillon en 4 parties, dans lequel la valeur est Q1, 2/4 dans un quart de la valeur de Q2, 3/4 est Q3
2. Quadais IQR = Q3- Q1
3. Valeur d'exception (exception
inférieure à Q1-1.5 (IQR) ou supérieure à Q3 + 1, 5 (IQR); pour une valeur inhabituelle; pour une valeur inhabituelle; pour une valeur inhabituelle; ,Nous devons être supprimés pendant le traitement.
4. La variance
Version Version
5. Déviation carrée [écart type]
6. Réparez Bezier: Formulaire d'édition équivalente
Q: Pourquoi utiliser la correction de Baizier?
Lors du calcul de la variance, le dénominateur doit utiliser le N-1, pas N nombre N, la raison
Bézier correction
Trois. Normalisation
1. Points standard (z)
Certains écarts types sont le score moyen de certains points?
Le score standard est une méthode qui peut voir une position relative dans la distribution.
Le score standard peut refléter la distance standard relative du score moyen.1. Définition
Variable aléatoire X observée à partir d'une attente mathématique pour μ, varianceest ⊃⊃2; La distribution normale est N (μ, ⊃2;)
Prenant un échantillon, 68,3% de la probabilité d'une écart type σ5,5,4% de la probabilité est 2 Des écarts types σ sur le moyen de distance à l'intérieur
La probabilité de 99,7% située sur le moyen de distance μ.
[Distribution normale de la distribution normale
5.
1. Limitez le centre
]
Le nombre de n échantillons est extrait de quiconque de la valeur moyenne de μ et d'une variance de σ2; Lorsque n est suffisant, l'échantillon d'échantillon signifie une longue description d'œufs de μ, la variance est ⊃⊃2; / N Distribution normaleRéglez la synthèse de l'élément Nombre N, extrait aléatoire Un échantillon N, lors de la réinitialisation d'un échantillon, total n · N, ce qui signifie que n · n · Différents échantillons peuvent être formés et lorsqu'il n'est pas un échantillonnage répété, le total n · N peut prendre des échantillons. Chaque échantillon peut calculer la moyenne et toutes les distributions peuvent être formées par TTous les types d'échantillonnage peuvent être la distribution de l'échantillon.
Cependant, il est impossible d'extraire tous les échantillons en pratique, répartissant ainsi la probabilité de l'échantillon signifiant qu'elle est en réalité une distribution théorique. La corrélation des statistiques mathématiques a été prouvée: lors de la réinitialisation des moyens de l'échantillon, la variance de l'échantillon est de 1/1Exemple: des pots de haricots 48 mm, calculant quelques couleurs vert sur chaque mm Baspter mm , 48 données forment l'échantillon global. Ensuite, sélectionnez au hasard cinq bassins, moyenne des haricots mm bleues dans cinq pots, puis répétez 50 fois. Il s'agit d'un échantillon qui signifie que l'échantillon de n est 5.
Échantillons de distribution de distribution
6. Estimation
1 marge
Amplitude d'erreur
2. Niveau de fiabilité
Nous avons une superficie de certaines% des paramètres de population qui tombent avec une plage spécifique ]
Nous avons plus de confiance que la valeur globale tombe dans une portée des instrumentspouvez; En général, une fiabilité de 95% peut être faite.
Intervalle de confiance
Test d'hypothèse
Test d'hypothèse d'hypothèse
1. Problème: quel est un niveau significatif?
Le sens de la signification est estimé que le paramètre global est dans une certaine période, cela peut être erroné, qui est l'erreur de type I
Error Type II C'est lorsque vous Ne refuse pas NULL quand c'est vraiment faux.
Hypothèses - Vacutions et contrôle
Hypothèse: Cas: Poulet
2 . Comment choisir un test de remplacement et une attaque malsaine
Un chercheur veut prouver ses recherches, la conclusion est correcte, la direction d'hypothèses facultatives doit correspondre à la direction que vous souhaitez prouver sa justesse; Dans le même temps, les chercheurs veulent collecter des preuves pour démontrer des hypothèses de détenteLe cadavre est l'hypothèse originale H0
huit. Vérification (T-TEST)
1. Utilisé principalement pour la distribution normale de la petite teneur en échantillonnage (par exemple N & LT; 30), écart-type global σ
T test
déduit la différence avec la théorie de la distribution T T, la probabilité de se produire comparer ainsi si des différences entre les deux niveaux moyens sont significatives; L'inspection générale α est de 0,05; La méthode de calcul des statistiques de test diffère du formulaire.
2. Vérifier les échantillons indépendants T
Analysez maintenant la hauteur des hommes et des femmes comme la principale différence entre les données de source et le problème seront une analyse.
T test Pourquoi vérifier la liste de contrôle à N-1? Échantillon signifie remplacer la perte globale de liberté 3. Combinaison de test d'échantillon T Toutes l'analyse de tout le monde et de la hauteur de la soirée, donc j'ai trouvé unJe dois les vérifier le matin et le soir, et tout le monde a deux valeurs, ici il y a une paire t Expérience - Modèle jumelé ] Erreur d'échantillon T Expérience T - Erreur d'échantillon T Expérience - Erreur 2 4. Combinaison de la combustion multilatérale Lorsque des échantillons, le nombre moyen est différent, mais en fait, lorsque leur variance est la même, il est nécessaire de consommer la fusion. N'ayez pas peur de la recette. Sa nature est la moyenne des deux modèles équipés de la moyenne. T Viraciance Combinée Test 1 Variance de TEMUS Variance Combinant Test 2 5. Cohen "SD ] Effets de taille: La différence réelle entre les rappels de différences statistiques, plus la valeur, plus fiable entre la différence entre les groupes. ] T Check - Cohen's d T test-chim's D2