Skip to main content

Traduction: Zhang Ruiyi

Accord: Zhang Yifeng

Environ 3800 de cet article devraient lire 10 minutes.

L'auteur donne un moyen d'expliquer le test et les activités principales du test d'hypothèse détaillé de la mise en œuvre de Python.

Peut-être que tous les étudiants débutants ou de la classe moyenne, ou des étudiants ayant des statistiques spécialisées ont entendu parler de ce terme, supposons vérifier.

Je vais introduire brièvement cette fois-ci que je me suis donné le sujet des problèmes. Je mets tous ces concepts ensemble et utilisez Python.

Certains problèmes devraient être pris en compte avant de rechercher des choses plus larges -

Qu'est-ce qu'un test d'hypothèse? Pourquoi l'utilisons-nous? Quelles sont les conditions de base pour l'hypothèse? Quel est un paramètre important pour tester des hypothèses?

Commençons par exemple:

1, quel est le test d'hypothèse?

Supposons que le test soit une méthode statistique pourDécisions statistiques en utilisant des données de test. Supposons que le test suppose essentiellement que nous faisons les paramètres de population.

Exemple: vous avez dit que l'âge moyen de l'étudiant de la classe a 40 ans, ou un garçon est plus élevé que la fille.

Nous pensons que tous ces exemples nécessitent des méthodes statistiques pour prouver ces choses. Que nous pensions savoir ce qui est juste, nous avons tous besoin de conclusions mathématiques.

2, pourquoi devrions-nous l'utiliser?
suggère que la vérification est un processus indispensable dans les statistiques. Supposons que l'évaluation des tests des deux états alternait l'élimination générale de déterminer quelles prétendent soutenir le meilleur support pour les données d'échantillon. Lorsque nous disons une découverte statistiquement significative, cela est dû à un test hypothétique.

3 Quelles sont les conditions de base pour l'hypothèse?


Distribution moyenne et normale

Fondation a été continuellementNorme d'azote et standard


Toutes nos hypothèses sont autour des deux plates-formes de ce terme. Voyez ceux-ci.

La distribution des données normales et des images d'image sont normalisées et pourcentage de chaque section

vous devez connaître la différence entre ces deux images quoi, certaines personnes peuvent dire que je ne peux pas trouver Et les images sont vues par d'autres qui seront plates, sans escarpasser. Ce n'est pas ce que je veux montrer. Premièrement, vous pouvez voir que toutes les courbes normales peuvent avoir différents repas et variantes, telles que la deuxième image, si vous notez que les graphiques sont raisonnables toujours moyennes = 0 et variance = 1. Lorsque nous utilisons des données normales à normaliser, le point zinguistique apparaîtra. Distribution normale
Si la variable de distribution a la forme d'une courbe normale - une courbe de cloche spéciale, tournant gC'est une distribution normale ou une distribution normale. La distribution normale est appelée courbes normales, avec les caractéristiques suivantes: 1. Moyenne, moyenne et nombre de critiques égales.

Équation de distribution normale


La distribution normale

La répartition standard régulière est la valeur moyenne 0, écart type 1 Distribution normale


, 4, un paramètre important pour les tests hypothétiques?

  • Dans le raisonnement Statistiques, Zero Holiday est une déclaration universelle ou une perspective par défaut, ce qui signifie qu'il n'y a pas de relation entre deux phénomènes de mesure ou entre groupes. Association
    En d'autres termes, il s'agit d'une hypothèse fondamentale ou basée sur la connaissance des noms de domaine ou des problèmes.
    Exemple: Productivité de l'entreprise = 50 unités / jour
    • Une autre hypothèse est une hypothèse hypothétique et inutilisée dans l'hypothèse à laquelle elle est opposée.On considère souvent que l'observation est le résultat de l'effet réel (qualité variable de changement)

      Exemple: Production de l'entreprise 50 Unités / quotidiennes, V.V.

      Important: mentionner l'importance d'accepter ou de rejeter notre handicap. L'acceptation ou la baisse en supposant que cela est impossible à 100%, nous avons donc choisi d'être important de 5%.

      Ceci est généralement exprimé en alpha (symboles mathématiques), généralement de 0,05 ou 5%, ce qui signifie que votre sortie doit avoir le même résultat dans chaque échantillon.

      I. Erreur: lorsque nous refusons de partir, bien que l'hypothèse soit correcte. Type d'erreur I est représenté par Alpha. Dans le test d'hypothèse, la zone normale de l'important domaine est appelée erreur α

      II: lorsque nous acceptons zéro, c'est faux. II est faux avec la bêta. Dans le test d'hypothèse, la courbe normale est affichée dans la zone d'acceptation appelée la région.

      Tester une queue unique: test de justiceT Statistiques, dans lesquelles la zone n'a refusé que sur un côté de la distribution d'échantillonnage, appelée test unique.

      Exemple: une université possède une organisation avec ≥ 4 000 étudiants ou science de données ≤ 80%.
      Vérification à double queue: la vérification à double queue est un test statistique dans lequel la zone principale est bilatérale et vérifie que les échantillons sont supérieurs ou inférieurs à une certaine gamme. Si l'échantillon est testé appartient à n'importe quel domaine important, acceptez les hypothèses de remplacement au lieu de 0.
      Exemple: Université! = 4000 étudiants ou science de données! = 80% de l'organisation adoptée
      Valeur P: P Calcul de P: P ou de probabilité est une attaque zéro (H 0) pour les problèmes de recherche (h 0) Lorsque j'ai réalisé, j'ai trouvé la probabilité de plus d'observation ou d'extrême - définition du niveau "extrême" en fonction de la détection des hypothèses.
      Si votre valeur P est inférieure à significativePour être sélectionné, il refuse de supposer que l'échantillon fournit des preuves raisonnables pour soutenir des hypothèses alternatives. Cela ne signifie pas la différence entre «significatif» ou «important»; Ceci est déterminé lors de l'examen de la vraie corrélation des résultats.
      Par exemple: vous avez une pièce de monnaie et que vous ne savez pas si cela est juste ou difficile, décidons donc non et l'hypothèse de remplacement
      H0: la pièce est une pièce de monnaie équitable.

      H1: la pièce est une pièce de monnaie. Et Alpha = 5% ou 0,05

      Laissez-nous une pièce de monnaie et calculez la valeur P (valeur de probabilité).

      Les premières pièces de monnaie, le résultat de la queue p = 50% (probabilité de la tête égale et de la queue)


      Lundi, le lundi, le résultat est la queue est la queue, maintenant la valeur P. 50/2 = 25%
      De la même manière, nous jetons 6 lancers consécutifs et obtenez les résultats de la valeur p = 1,5%, mais nous fixons un niveau important à 95% indique qu'ilsNous permettons au taux d'erreur de 5%, ici, nous voyons que nous dépassons ce niveau, c'est-à-dire que notre attaque zéro n'est pas mise en place, nous devons donc refuser et présenter le cuivre cette pièce de monnaie est vraiment une pièce de monnaie.
      Liberté: Maintenant, je m'en fiche de vous ne vous souciez pas de la valeur attendue, vous êtes intéressé par l'analyse des données. Vous avez un ensemble de données contenant 10 valeurs. Si vous n'avez rien estimé, vous pouvez obtenir n'importe quel numéro, non? Chaque valeur peut être complètement libre de changer. Mais supposez que vous souhaitiez utiliser un seul test de modèle pour vérifier la moyenne globale des échantillons de 10 valeurs. Maintenant, vous avez une estimation moyenne limitée. Quelles sont les limitations? En déterminant la moyenne, les éléments suivants doivent être maintenus: la somme de toutes les valeurs dans les données doit être égale à N x X, où n est la quantité de valeur dans le jeu de données.

      Par conséquent, si l'ensemble de données a 10 valeurs, le total de 10 valeurs doit être égal à la valeur moyenne x 10. Si la valeur moyenne de 10 valeurs est de 3,5 (vous pouvez choisir n'importe quel numéro), cela nécessite la liaison totale de 10 valeurs à 10 x 3,5 = 35.

      Utilisez cette liaison, la première valeur dans le Le jeu de données peut être changé librement. Quelle que soit la valeur, la somme des 10 numéros peut toujours être valide 35. La deuxième valeur peut également être modifiée librement, car peu importe la valeur que vous choisissez, elle permet toujours la somme du total de toutes les valeurs est de 35. ans.
      Regardons maintenant certains types d'essais hypothétiques largement utilisés: -

      Vérification ANOVA

    • ] Check QC
    • TT -Test: T Test est une statistique de raisonnement pour déterminer s'il existe une différence significative entre la valeur moyenne de deux groupes dans certaines caractéristiques. Il est principalement utilisé pour les ensembles de données, tels que les données de résultats placés par FLIP Coin 100 Records, suivront la distribution normale et peut avoir zéro xDAMN (link: https://www.investia.com/terms/varyce. ASP). T Test comme outil de test hypothétique (lien: https://www.investoseose.com/terms/h/hypuitsistant.asp), permettant des tests utilisés pour les hypothèses de groupe.
    • T Expérience Il existe deux types:
    • Réexaminer le mode T "
    • Test de modèle Dual K

    • Test T Test Test: Vérifier un degré unique définit le Échantillon si cela signifie que différentes statistiques avec la valeur moyenne moyenne ou supposée. Vérifiez le mode mono-mode pour vérifier le paramètre
      Exemple: avez-vous 10 ans, vous vérifiez l'âge moyen de 30 ans . (Utilisez Python pour voir le code suivant)
    • Le résultat du code ci-dessus sur les éléments suivants:
    • Résultats du test T a Mode
      Test de Templates Deux Test T: Exemple de vérification indépendante ou tester la couche double modulaire de la moyenne de la moyenne de deux groupes indépendants pour déterminer s'il existe des différences de preuve statistiques de signification humaine. Un échantillon indépendant test T est le testVérifiez les paramètres. Ce test est également appelé: test indépendant.
      Exemple: existe-t-il une relation entre la semaine1 et la semaine2 (donnée en python ci-dessous) <_from scipy.stats import ttest_1sampimport numpy as npages = np.genfromtxt(“ages.csv“)print(ages)ages_mean = np.mean(ages)print(ages_mean)tset, pval = ttest_1samp(ages, 30)print(“p-values“,pval)if pval < 0.05: # alpha value is 0.05 or 5% print(" we are rejecting null hypothesis")else: print("we are accepting null hypothesis“)_>

      Vérification de l'échantillon T [Test de transplantation T test: Essai de test Tessé Le test est également appelé test d'échantillon dépendant. Il s'agit d'un seul test de transformation et d'une différence significative entre les deux variables connexes. Un exemple de ceci est si vous collectez une pression artérielle personnelle avant et après et après le temps.

      H0: indiquant la différence entre les deux échantillons est de 0.

      H1: la différence moyenne entre les deux échantillons n'est pas 0.

      Effectuer le code suivant pour obtenir les résultats similaires.

      <_from scipy.stats import ttest_indimport numpy as npweek1 = np.genfromtxt("week1.csv", delimiter=",")week2 = np.genfromtxt("week2.csv", delimiter=",")print(week1)print("week2 data :-n")print(week2)week1_mean = np.mean(week1)week2_mean = np.mean(week2)print("week1 mean value:",week1_mean)print("week2 mean value:",week2_mean)week1_std = np.std(week1)week2_std = np.std(week2)print("week1 std value:",week1_std)print("week2 std value:",week2_std)ttest,pval = ttest_ind(week1,week2)print("p-value",pval)if pval <0.05: print("we reject null hypothesis")else: print("we accept null hypothesis“)_> Lorsque je peux exécuter Z.
      , plusieurs utilisations différentes dans le type de test (par exemple, c.-à-d. Ie F, vérifiez la carte carrée, vérifiez t)
      NCencentral.com/
      Probabilité - et - statistiques / hypothèse - chèque / f - chèque /

      ; Https: //www.staticshowto.dasciencecenTral.

      COM / Probabilité - et - Statistiques / Chi - Square / HTTPS: //www.staticshowto.


      <_import pandas as pdfrom scipy import statsdf = pd.read_csv("blood_pressure.csv")df['bp_before','bp_after'].describe()ttest,pval = stats.ttest_rel(df['bp_before'], df['bp_after'])print(pval)if pval<0.05: print("reject null hypothesis")else: print("accept null hypothesis")_>

      Probabilité - et - Statistiques / T - Vérifiez /).

      Dans les cas suivants, vous utiliserez le test Z:

      Votre échantillon est supérieur à 30. (Liens:

      HTTPS: //www.statisticshowto .dasciencecentral. COM / Probity-and-Statistique / Trouver-échantillon-taille /) Sinon, veuillez utiliser les points T.

      Les points de données seront indépendants de l'autre. (Liens:

      https://www.staticshowto.dasciencentral.com/probabilit-and-static/depende-s-static/dependrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrternent-sss-indone/) En d'autres termes, les points de données ne sont pas liés ou n'affecte pas les autres points de données.

      Vos données seront distribuées normalement. Cependant, ce n'est pas toujours important pour les grands échantillons (plus de 30).

      Vos données seront sélectionnées au hasard dans la population, chaque projet a la même chance de choisir.

      Si possible, la quantité d'échantillon doit être égaleensemble.

        Pour un autre exemple, nous utilisons un test Z pour mesurer la mesure de la pression artérielle, tel que 156 z de test de test.
      • Test Z Dual échantillon - Dans deux modèles de test Z, similaires à T tests, nous avons vérifié deux ensembles de données distincts et déterminé que la vue moyenne des prix des deux groupes ou non.
      • H0: La valeur moyenne des deux groupes est de 0
      • H1: la valeur moyenne des deux groupes n'est pas 0
      • Exemple: Nous vérifions le sang avant et des mauvaises données sanguines. (Ci-après le code Python)
      • ANOVA (Test F): T testé très bien lors de la manipulation de deux groupes, mais parfois, nous voulons comparer deux groupes. Par exemple, si nous voulons vérifier si l'âge électoral est différent en fonction de certaines variables de classification telles que la nation ou non, nous devons comparer la moyenne de chaque niveau ou de chaque groupe variable. Nous pouvons faire un test T privé pour chaque paire de groupe, mais lorsque vous faites beaucoup de détection de détection, vousFausses capacités positives. Analyse de la variance ou de l'ANOVA
      • Wiki / Analys_of_variance) est un mauvais test statistique qui vous permet de comparer plusieurs groupes en même temps.
      • F = changement du groupe / groupe variable
        F-tchèque ou un exemple d'anova <_import pandas as pdfrom scipy import statsfrom statsmodels.stats import weightstats as stestsztest ,pval = stests.ztest(df['bp_before'], x2=None, value=156)print(float(pval))if pval<0.05: print("reject null hypothesis")else: print("accept null hypothesis")_>

        Autre avec la distribution Z et T, la distribution sans valeur négative car les variations du groupe et des variations En réglage sont toujours positifs en raison du carré de chaque écart.

        Test à une manière F (ANOVA): déterminer si des groupes sont similaires ou plus, en fonction de la similitude moyenne et de leurs points F ou non.
        Par exemple, il existe trois types différents de plantes et leur poids. Vous devez vérifier si tous les trois groupes sont similaires (ci-dessous sont Code Python)
        Test à double sens: deux-bidonies Les tests sont étendus au test (link: https://stattek.com /Help/glossary.aspx? <_ztest ,pval1 = stests.ztest(df['bp_before'],x2=df['bp_after'],value=0,alternative='two-sided')print(float(pval1))if pval<0.05: print("reject null hypothesis")else: print("accept null hypothesis")_>

        Target = Classification% 20variable), lorsque nous avons 2 arguments et plus de 2 groupes. Le test F bidimensionnel ne résoud pasQuel système variable. Si nous devons vérifier votre signification personnelle, vous devez vérifier plus tard.

        Regardons maintenant la productivité des cultures moyens (pas la productivité des cultures moyennes d'un groupe) et la productivité des cultures moyennes de chaque élément et la fin gagne ensemble


        Vérifiez Squire: Lorsque vous recevez deux variables classées à partir d'un tout

        (Liens: https: //stattrek.com/help/

        gloslary.aspx? Cible = classification% 20variable) Ce test sera appliqué. Il est utilisé pour déterminer si une relation significative entre les deux variables. Par exemple, dans l'enquête électorale, les électeurs peuvent être classés par sexe (homme ou femme) et intérêts de vote (démocrates, républicains ou groupes indépendants). Nous pouvons utiliser la vérification de la carte pour déterminer l'indépendance pour déterminer si le sexe se rapporte à l'option de vote est le code Python HTTPS: / crssitsdasdascience.com/hypsothesIS-Tennance-in-Machine-apprenarning-UTIL-Python-A0DC89E169CE Editeur: Comme Tengkai Convention: Lin Yanlin Le profil du traducteur Zhang Ruiyi, Les postes de Beijing et une grande université de télécommunications réseau sont lues. Je suis un amoureux gratuit. Pour la première année de l'Université de poste et des télécommunications, j'ai couru autour de moi et j'ai été surpris. Il vaut mieux précipiter dans mon anxiété actuelle. Donc, dans les deux grandes, insistez sur la lecture, n'osistez pas à manger du petit déjeuner. Et à cause de l'examen d'outre-mer, je pense que j'ai toutes les personnes qui ont été enchaînées. De nombreux héros réellement briller dans la société. Cela commence, et tout le monde a donné toute la vie à apprendre d'un élève d'école primaire pur. Comme algorithmes, mines de données, identification de l'image, traitement de langue naturelle, réseau nerveux, intelligence artificielle, etc.

Sujets