Les statistiques utilisent un grand nombre de connaissances professionnelles des mathématiques et d'autres industries, et son application est presque constituée de différents domaines de la science sociale et des sciences, et elle n'expose pas dans le domaine Internet de la masse de données. Par conséquent, Installation statistique est une compétence indispensable .
Cependant, les connaissances statistiques comprennent des informations graphiques, des tendances de la concentration, des calculs de probabilité, de la combinaison des arrangements, de la distribution de probabilité continue, de la distribution de probabilité discrète, de l'hypothèse, de la régression et de la régression pour des points de connaissance spécifiques, cet article ne sera pas introduit et concerné des étudiants Veuillez vous reporter à"statistiques profondes superficielles" "Statistiques: des données à la conclusion" et d'autres livres spécialisés. Les statistiques sont divisées en statistiques descriptives et de statistiques médiocres.
Premières statistiques, description
Définition: Utilisez un numéro ou un graphiquePeut refléter la concentration et les niveaux de données distincts.
1, une tendance centraliséeLa tendance de la concentration fait référence à la valeur centrale d'un ensemble de données et les indicateurs utilisés sont les suivants: calcul moyen, géométrique moyen, moyen.
1) MENU Pour calcul: moyenne moyenne, utilisée pour refléter un ensemble de valeurs variables en fonction de la distribution de taille moyenne.
2) Géométrie moyenne: il est souvent utilisé pour refléter la moyenne des valeurs variables de la distribution symétrique après les logarithmes.
3) Méditerimum: Convient aux données pour distribuer la polarisation et l'intuitude ou les deux extrémités, est le 50ème pourcentage.4) Pourcentage: Pour une valeur limite pour déterminer la portée des valeurs de référence médicale.
2, la tendance discrète
La tendance discrète doit refléter le niveau de transformation des données et indicateurs communs avec une distance, une distance quantique très faible, une variation et une écart de coefficient standard.
1) plainte: différence VLa valeur maximale et minimale d'un ensemble de données, mais l'extraction ne peut pas refléter la taille de toutes les données et il est extrêmement vulnérable à la teneur en échantillonnage. Il est souvent utilisé pour décrire la distribution polaire.
2) La distance quadrilatérale: il est réduit du troisième quart du premier quadrant, décrivant souvent la distribution des données de distribution polarisées avec la médiane.3) La variance et l'écart type: reflètent le niveau discrète moyen d'un ensemble de données, éliminant ainsi l'impact de la teneur en échantillonnage, couramment utilisé pour décrire les tendances et la concentration discrètes dans un ensemble de données.
4) Coefficients variables: également connu sous le nom de valeur inhabituelle, principalement utilisée pour observer les indicateurs, peut éliminer la différence d'unités sans avoir besoin de comparaison de difficulté. Par exemple: la carte de la boîte peut refléter certaines statistiques importantes.
3, la méthode d'échantillonnage et la limite extrême
# Méthode d'échantillonnage
We DTest de produit testé d'ANG À l'époque, il était impossible d'ouvrir tous les produits sur les tests. Nous ne pouvons que extraire des échantillons de tous les produits. Selon la qualité de l'échantillon, celui-ci est échantillonné, la définition d'échantillonnage consiste à vérifier l'échantillon extrait globalement détecté de l'ensemble et l'estimation de la qualité globale est effectuée avec les résultats de test de l'échantillon.
Il existe de nombreuses façons de goûter à différentes méthodes et scènes et doivent détecter différentes méthodes. La méthode d'échantillonnage général est la suivante:
# Obtenez l'échantillon de probabilité
• Simple échantillonnage aléatoire;
• Classe d'échantillonnage;
• Échantillonnage du groupe entier (premier dans l'unité commune du groupe, un tel groupe de groupes, puis échantillonnant directement le groupe);
• L'échantillonnage du système (toutes les unités de l'ensemble sont triées dans un certain ordre et une unité extraite au hasard dans la plage spécifiée comme unité d'origine, après cela indéfinimentRègles d'identification d'autres échantillons d'échantillons); • Prenez l'échantillon de scène (retrait d'abord, puis échantillonnez deux étapes du groupe).
# # 非 非• Échantillonnage facile (déterminé par un principe pratique);
• Formulaire de jugement (selon le jugement professionnel de la connaissance);
• Exemple de volontaire (enquêteur volontaire participant);
• ombre de neige (semblable à la structure des arbres);• Échantillons de réservoir (semblable à l'échantillonnage de la laïcelle);
# Deux comparaisons entre méthodes d'échantillonnage:
• Échantillonnage non probabilité appropriée pour la recherche d'exploration, la préparation pour analyser plus de données intensives, des caractéristiques simples, un vieux coût rapide, faible coût. Et les exigences techniques professionnelles des statistiques dans l'échantillonnage ne sont pas très élevées;
• Obtenez un échantillon de probabilité avec un contenu technique plus élevé, des coûts d'enquête plus élevés, nécessite des connaissances statistiques plus élevées, adaptées à des fins d'enquête pour étudier ChunG, obtenir la confiance de la période du paramètre global.
# Limiter le centre: si tous les échantillons sont dites de tout tout, la répartition des échantillons du moyen d'échantillon proche de la distribution normale et plus la quantité d'échantillons est supérieure à une grande quantité. Prenez 30 frontières, lorsque des échantillons supérieurs à 30 termes centraux sont conformes et que l'échantillon distribuera normalement; Lorsque des échantillons sont inférieurs à 30, la distribution commune globale, à ce stade, l'échantillon provient de la distribution de T. Exemple de distribution pour déterminer la méthode que nous utilisons dans le test d'hypothèse pour le vérifier.
Définition: Introduction des caractéristiques de données globales basées sur l'échantillon de données.
1. Étapes de base
Lors de la détection du produit, il est presque le manque de méthodes d'échantillonnage. Le processus inférieur est un test hypothétique. Lorsque nous comptons, nous devons être clairs:
1) Quel est le problème? -
2) Quelle est la demande de preuves claires?
3) TIQuel est le jugement?a toujours été clairement, vous pouvez correspondre à certaines étapes de notre hypothèse:
1) a prouvé l'hypothèse initiale (H0) et l'hypothèse de remplacement (H1), Détermination du niveau significatif (l'hypothèse initiale est correcte, les gens rejetent la probabilité de le nier)
2) Sélectionnez la méthode de test, identifiez les statistiques de vérification
3) Déterminez la valeur P, faire Raisonnement statistique
En supposant que pour un dispositif, des exigences de poivre Norme nationale: la valeur moyenne est inférieure à 20.Une entreprise a produit 10 dispositifs associés et valeurs connexes comme suit. : 15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9
Pour déterminer si la Société est conforme aux normes nationales:
1) Ensemble:
Hypothèses initiales: la moyenne valeur du périphérique & gt; = 20;
Remplacement des hypothèses: valeur moyenne de l'équipement & lt; 203]
2) L'ensemble est la distribution moyenneNG, variance non identifiée, les échantillons sont de petits échantillons, il est donc utilisé.3) Statistiques de test de calcul: échantillon en moyenne 17.17, écart type standard 2.98, statistiques de test (17 17-20) / (2,98 / √10) = - 3 0031
4) lorsque La fiabilité est de 97,5%, le niveau de liberté est 9, à ce stade, la valeur importante est de 2 262.
5) DO -3.0031 & LT; -2.0031 & lt; -2.262, l'hypothèse initiale est refusée, acceptant ainsi les hypothèses facultatives, l'appareil répond aux normes nationales.2, hypothèse
• Vérifiez la forme: Bien que la valeur moyenne d'un seul échantillon soit égale à la valeur cible
• Essai de couplage lié: si la différence entre le La différence entre la corrélation ou l'appariement est égale à la valeur cible
• Vérification des échantillons doubles indépendants: si la différence entre la valeur moyenne de deux modèles indépendants égaux avec une valeur cible
3, méthode de testTest de statistiques
Z TEST: Les méthodes sont souvent utilisées pour les grands échantillons (c.-à-d. Capacité d'échantillonnage supérieure à 30) Vérifier l'erreur différentielle moyenne. C'est la probabilité d'une différence de théorie de la distribution normale normale, comparant ainsi deux moyennes et gt; La différence moyenne est significative.
T TEST: Pour un échantillon de distribution normal pour une petite teneur en échantillonnage (par exemple, N & LT; 30), les échantillons de distribution normaux σ ne savent pas.F Test: F Test est également appelé Variance. Le test F est utilisé dans deux T. Vérification T. Vérifiez si la variance des deux échantillons a une différence significative. Il s'agit d'une condition préalable à sélectionner Test de test (vérifiez deux formes équivalents, enregistrez-vous dans un double échantillon parallèle).
[12] (T test pour détecter la précision des données, détecter les erreurs système; F Test est utilisé pour détecter la précision des données, détecter des erreurs aléatoires)Test de QC: SupportLa faiblesse est utilisée pour vérifier deux différences significatives entre ou deux ou plusieurs ratios d'échantillonnage ou des taux de composants, ou s'il existe une certaine relation entre deux objets.
4, détectant une double queue à double queue et une queue unique Ceci est lié à l'hypothèse de vacances originale, telle que le poids original: valeur moyenne de l'équipement et de la GT; = 20; Nous devons nier la valeur moyenne et la LT; 20, c'est un test de queue unique; Si nos vacances originales sont la moyenne de l'équipement et du GT; 20, alors nous devons refuser l'hypothèse comme valeur moyenne de l'appareil & lt; 20 et moyenne équipement = 20, c'est une double détection de queue; 5, Intervalle de confiance et fiabilité Dans les statistiques, presque tous les cas pire, mais dans le processus bas, nous rencontrerons une série d'obstacles et de bruit, de sorte que Nous déduisons les résultats pas certains indicateurs, mais trANG RATIFIABLE RIENTABLE, cette gamme est l'intervalle de confiance. Cependant, toutes les données de l'ensemble des données ne sont pas réelles dans cette plage.Nous avons juste un intervalle de confiance.La majorité majeure ici est le concept de fiabilité, généralement notre niveau de fiabilité est de 95%. La zone de divertissement de la méthode de calcul de [A, B] est la suivante: (point z: déterminé par le niveau de fiabilité, forme de test) a = formulaire moyen - erreur standard Z *, b = moyen d'échantillon + z * erreur standard