Skip to main content

Analyser des données, en plus de penser des données rigides et flexibles de soi, vous devez apprendre les statistiques de base nécessaires!

Par conséquent, les statistiques sont les bases de l'analyse des données à maîtriser, ce qui est, par la recherche, la finition, l'analyse, les données descriptives, etc afin de répondre aux copies de l'objectif, et même de prédire l'avenir de L'object. La science.

Statistiques utilisant un grand nombre de connaissances professionnelles des mathématiques et d'autres industries, et son application a presque inclus les domaines de la science sociale et de la science naturelle différente, et aucune exception dans le domaine Internet de la masse de données; Les statistiques du fonds sont une compétence indispensable.

Toutefois, les connaissances statistiques incluent des informations sur le calcul graphique, la concentration de données, le calcul de la probabilité, la combinaison d'arrangement, la distribution de probabilité continue, la distribution de probabilité discrète, l'hypothèse, la relation et la régression, etc. Pour des points de connaissance spécifiques, cet article sera intelligentg est introduit et les étudiants concernés, s'il vous plaît se référer aux « statistiques profondes peu profondes », « Statistiques: Des données aux conclusions ».
Les statistiques sont divisés en statistiques descriptives et statistiques pauvres.

Premièrement, les statistiques décrivent

Définition: numéros spécifiques ou des graphiques afin de refléter les concentrations de données et discrète.

1. mouvement de concentration

La tendance axée sur les tendances de mise au point se réfère à la valeur centrale d'un ensemble de tendances des données et des indicateurs utilisés: calcul de la moyenne, la géométrie moyenne, moyenne. menu Calcul: Il y a un menu, il est utilisé pour tenir compte d'un ensemble de valeurs de variables dans la distribution de symétrie au niveau du support.
géométrie moyenne: Il est souvent utilisé pour refléter les valeurs des variables de distribution symétrique après un groupe de conversion de logarithme.

Médias: Convient pour les données pour distribuer la polarisation et infinitude ou aux deux extrémités, est le pourcentage de 50

Pourcentage:. Pour une valeurLimite pour déterminer la portée des valeurs de référence médicale.

2. La tendance discrète

La tendance discrète doit refléter le niveau de transformation des données et avoir un index très faible, la distance du quadrant, de la variance et des écarts types, le nombre de variable système.

PRESTIGE: la différence de valeur maximale et minimale d'un ensemble de données, mais l'extraction ne peut pas refléter la taille de toutes les données et est extrêmement vulnérable à l'échantillon de contenu. Il est souvent utilisé pour décrire la distribution polaire.

La distance quadrilatérale: elle est réduite du troisième quart du premier quadrant, décrivant souvent la distribution des données de distribution polarisées avec la moyenne.

Différenciations et écarts types: reflètent le niveau discrète moyen d'un ensemble de données, éliminant ainsi l'impact de la teneur en échantillonnage, couramment utilisé ensemble pour décrire la tendance discrète et la mise au point dans un ensemble de données.

Coefficient de variante: également appelé valeur inhabituelle, principalement utilisée pour observer des unités CAVERTISSEMENT, il peut éliminer les difficultés par rapport à la différence.

Exemple: La ligne de la boîte peut refléter certaines statistiques importantes:


3. Méthode d'échantillonnage et de limites extrêmes

Méthode d'échantillonnage:

Lorsque nous vérifions les produits, nous ne pouvons pas ouvrir tous les produits sur les tests. Nous ne pouvons que extraire des échantillons de tous les produits pour vérifier le produit total en fonction de la qualité de l'échantillon. La qualité, c'est l'échantillonnage, la définition de l'échantillonnage consiste à vérifier l'extraction globale des échantillons de l'ensemble et à effectuer l'estimation de la qualité globale avec les résultats de test de l'échantillon.

L'échantillonnage présente de nombreuses méthodes différentes, à des fins et scénarios différents, il est nécessaire de détecter différentes méthodes. Les méthodes d'échantillonnage générales sont les suivantes:

1) Probabilité d'échantillonnage

Simple Sample aléatoire;

Classe d'échantillonnage;

Tous les modèles d'équipe (combinés d'abord dans un groupe dans l'unité totaleCorps, un tel groupe est un groupe, puis des groupes d'échantillonnage directement); Système d'échantillonnage (toutes les unités de l'ensemble sont triées dans un certain ordre et une unité extraite au hasard dans la plage spécifiée comme unité d'origine, puis prédéfini les autres échantillons d'échantillons);

Étape d'échantillonnage (pour la première fois, puis dans le groupe, échantillonnant deux étapes).

2) Échantillonnage sans probabilité
échantillonnage pratique (selon le principe de commodité);
Évaluation des échantillons (jugement selon les connaissances professionnelles);
Échantillon volontaire (enquêteur volontaire participant);
Forme de rouleau de neige (semblable à la structure des arbres);
Échantillons de quotas (modèle similaire à la laïcelle);
3) Les deux méthodes d'échantillonnage:
Échantillonnage sans probabilité Convient pour la recherche d'exploration, préparant une analyse de données plus intensive, une opération simple, un vieux coût rapide, faible coût; Et les statistiques dans l'échantillonnage ne sont pas très élevées;
L'échantillon de probabilité a un contenu technique plus élevé, des coûts d'investigation plus élevés et des connaissances professionnelles nécessite des exigences plus élevées, adaptées à des fins d'enquête pour étudier des objets et avoir un intervalle de confiance des paramètres globaux.
4) Limiter le centre:
Si tous les échantillons de certaines quantités proviennent de tout ensemble, la distribution d'échantillonnage signifie l'échantillon proche de la distribution normalement et plus l'échantillon, plus l'approximation.
L'utilisation de 30 est la limite, lorsque l'échantillon est supérieur à 30, le centre est limité, l'échantillon défini de la distribution normale; Lorsque des échantillons sont inférieurs à 30, la distribution commune totale, l'échantillon d'échantillon de service de la distribution de T. Distribution du modèle thaïlandais détermine la méthode que nous utilisons dans les tests hypothétiques pour le tester.

La deuxième statistique de raisonnement

Définition: Introduction des caractéristiques générales de données basées sur des données d'échantillonnage.

1. Étapes de base

Lors de la vérification de la qualité du produit, il est procheComme toutes les méthodes d'échantillonnage, le processus basse est un test d'hypothèses, lors de la fabrication de statistiques plus pauvres, nous devons être clairs:

Quel est le problème?

Quelle est la preuve claire?

Qu'est-ce que les critères de jugement?
Après avoir supprimé, vous pouvez correspondre à certaines étapes de notre hypothèse:
proposer l'hypothèse initiale (H0) et l'hypothèse de remplacement (H1), déterminant l'importance (l'hypothèse initiale est correcte,les gens rejetent la probabilité de le nier);

Sélectionnez la méthode de test pour déterminer les statistiques de test;

Déterminer la valeur p, faire un raisonnement statistique;

Supposons qu'un dispositif standard, le pays exige la norme: la valeur moyenne est inférieure à 20.

Une société a produit 10 appareils et valeurs connexes comme suit: 15,6, 16,2, 22,5, 20,5, 16,4, 19.4, 16.6, 17.9, 12.7, 13.9.
Utilisez l'hypothèse pour déterminer si la société est conforme aux normes nationales:
1) Mise en place:

Hypothèses initiales: La valeur moyenne de l'appareil & GT; = 203]

Hypothèse de remplacement: valeur moyenne de l'équipement & lt; 20;

2) Globalement une distribution normale, la variance est inconnue, les petits échantillons sont de petits échantillons, donc T test est utilisé.

3) Statistiques de test de calcul: échantillon en moyenne 17.17, écart type standard 2.98, statistiques de test (17 17-20) / (2,98 / √10) = - 3 0031
4) lorsque La fiabilité est de 97,5%, le niveau de liberté est 9, à ce stade, la valeur importante est de 2 262.

5) DO -3.0031 & LT; -2.0031 & lt; -2.262, l'hypothèse initiale est refusée, acceptant ainsi les hypothèses facultatives, l'appareil répond aux normes nationales.

2. Type de test supposé

Vérifier le formulaire de vérification: si la valeur moyenne d'un seul échantillon est égale à la valeur cible;

Tests de jumelage connexes: la différence de vérification ou d'observations d'appariement en moyennecible ordinaire;

Test double échantillon indépendant: bien que la différence entre deux échantillons indépendants soit égale à la valeur cible;

3. Statistiques d'essai

Z Expérience: couramment utilisée pour les grands échantillons (c.-à-d. Capacité d'échantillonnage supérieur à 30) Test de méthode de test de différence différentiel moyen. C'est la probabilité d'une différence de théorie de la distribution normale normale, comparant ainsi deux moyennes et gt; La différence moyenne est significative.

T TEST: Pour un échantillon de distribution normal pour une petite teneur en échantillonnage (par exemple, N & LT; 30), les échantillons de distribution normaux σ ne savent pas.

F Test: F Test est également appelé Variance. Le test F est utilisé dans deux T. Vérification T. Vérifiez si la variance des deux échantillons a une différence significative. Il s'agit d'une condition préalable à sélectionner Test de test (vérifiez deux formes équivalents, enregistrez-vous dans un double échantillon parallèle).

(T test t pour détecter le niveau CDétermination des données, détecter les erreurs système; F Vérification est utilisée pour détecter la précision des données, détecter les erreurs accidentelles.)
Test de QC: principalement utilisé pour vérifier la différence entre deux milliards de milliards de modèles ou de rapports de composants peut également être vérifié pour une certaine relation entre deux choses.
4. Détection de la détection double queue et de la queue simple
Ceci est lié à l'hypothèse d'origine, telle que l'hypothèse d'origine que nous vérifions: Moyen Set souffre et GT; = 20. Nous devons refuser de supposer que le dispositif moyen et le LT; 20, il s'agit d'une vérification de la queue unique; Si nos vacances originales sont la moyenne de l'équipement et du GT; 20, en supposant que nous devons refuser d'être le dispositif moyen & lt 20 et la moyenne de l'appareil = 20, il s'agit d'une double détection de queue.
5. Section de divertissement et de fiabilité

Presque tous sont basées sur une situation commune, maisNous allons rencontrer tous les types de chacun dans le processus d'obstacles et de mauvais bruit; Nous avons donc déduire les résultats qui ne sont pas des boutures, mais pour une période de temps raisonnable, cette gamme est l'intervalle de confiance.

Mais toutes les données dans l'ensemble irréaliste dans cette gamme. Nous avons juste un intervalle de confiance. La majorité majeure ici est le concept de niveau de fiabilité, généralement notre confiance est de 95%.

Méthode de calcul de l'intervalle de confiance [A, B] est: (point Z: déterminé par le niveau de fiabilité, vérifiez le formulaire.)

A = moyen d'échantillon - erreur z *, b = moyenne + Z Formulaire * Erreur standard

disponible.

Ne apprends pas comment savoir, ne demandez pas. La connaissance de soi, un acteur antique et moderne n'est pas!

Lors de l'analyse des données, nous pouvons utiliser des données avec beaucoup d'informations de conduite et de ciblage statistique; Les données d'observation plus détaillées, plus détaillées sont correctes et basées sur la structureCe C détermine la méthode d'analyse des données pour plus d'informations.

Sujets