Analyse des données, Organisation des mines à données: Description des statistiques de base du partage des

Description des statistiques est la base de l'exploitation minière des données.

Points (anglais: quantitatif), également appelé site désignant la probabilité d'une probabilité d'un La variable aléatoire est divisée en plusieurs intervalles continus avec la même probabilité de points de séparation.
Le nombre de points est inférieur à la distance fractionnée.

Exemple: 3 points de division peuvent être divisés en 4 périodes de temps.

couramment utilisé avec un séparateur (deux points), quadruples, dix points (décile), pourcentage et similaire.

Q-FENTILE faisant référence à un sous-ensemble de q proche de la même taille.
La population est un point de la fonction de distribution continue et ce point correspond à la probabilité de P.

Quadais (Anglais: Quadruple) est l'une des statistiques, c'est-à-dire mettre tous les Les valeurs de petites à grandes, puis divisées en quatre autres valeurs, puis divisées en quatre autres valeurs selon le total, c'est-à-dire que chaque nombre de cLes valeurs diaboliques dans la section sont les mêmes et la valeur de trois points de segment est le trimestre.

Ces trois nombres sont appelés:
Premier quadrant: également appelé petit quadrant, égal à toutes les valeurs de cet échantillon après 25% de petites quantités.
Le deuxième trimestre: également connu sous le nom de médian, égal à toutes les valeurs de cet échantillon de 50% des arrangements d'arrivée.

4 Troisième étaté: également connu sous le nom de quadrant plus grand, égal à toutes les valeurs de cet échantillon de 75% des arrangements d'arrivée.

Pandas.dataframe.Quantile () et calculer numpy.percentile () est le même.
Il existe une méthode décrite dans Pandas pour afficher une grande partie.

Méthode de deux à huit € dans des méthodes analytiques, en utilisant des positions de liaison.
II. Déviation standard et ampli; La variance

décrit des niveaux de données distincts. La volatilité des données.

>>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])>>> ps.describe()        0count 12.000000mean 6.500000std 3.605551min 1.00000025%   3.750000 #分割点50%   6.50000075%   9.250000max 12.000000

Vériance: Différences statistiques (variance de l'échantillon) sont la différence entre chaque valeuréchantillons et toutes les valeurs d'échantillons. Quantité moyenne de la valeur carrée.
Norme parallèle: L'autre partie est différente. Parce que la variance supprimera l'unité de données. (Yuan, manque de sens des entreprises, l'écart type est introduite.) >>> ps.quantile(0.25)0 3.75 >>> ps.quantile(0.5)0 6.5
>>> np.percentile(ps, 50)6.5:

A = [10, 10, 10, 11, 12, 12, 12] B = [3, 5, 7, 11, 15, 17, 19]

A et B ont une quantité moyenne et une quantité moyenne moyenne, mais la variance d'entre elles est différente, la variance de A. Variance de B.

Définit de données plus petits Set de données B. Déviation moyenne +/-, Portée de ces données occupant la majorité de l'ensemble du jeu de données, on peut dire que la plupart des valeurs de plage Gamme dans cette gamme.

Explication: La valeur moyenne de l'ensemble de données est M, vibrant presque dans la variance M +/-.

III. Statistiques Poids: Données standard standard standard standard

Normalisation Z Point est une standardisation. ça peut êtreTrouvé dans les données dans les données.
(forme I-Moyenne) / écart type = données standardisées

Ils peuvent être estimés par des échantillons existants. Il est relativement stable en cas de multiples échantillons, adaptés aux scènes de données bruyantes modernes.

4. Prendre le théorème de la neige Bibi

Au 19ème siècle, le chercheur a étudié la neige du mathématicien russe, affirmant qu'il montre une inégalité avec des écarts types. Cette inégalité a une signification commune, appelée théorème de Cutophale. C'est:

Tout jeu de données, rapport (ou partie) dans la plage de déviation standard d'au moins 1-1 / m2, où M est bien supérieur à 1. #还是上面的数据>>> ps.std()0 3.605551 ]
pour m = 2, m = 3 et m = 5 Il existe les résultats suivants:

Dans toutes les données, au moins 3/4 (ou 75%) de données est placée dans un écart-type moyen. 2. Dans toutes les données, des données d'au moins 8/9 (ou 88,9%) se situent dans la plage de déviation standard.

Dans toutes les données, des données d'au moins 24/25 (ou 96%) se situent dans la plage de déviation standard.

Collecte de données aléatoire, uniquement le nombre moyen et l'écart type, vous connaissez la distribution approximative de cette collection de données.

Exemple: La moyenne moyenne est de 70 points, la norme est de 5 points et combien de résultats de l'étudiant 60 · 80 points?

60-70 = -10

#附加，mac-numbers使用公式的方法：1.单元格按=号，右侧弹出函数列，选择函数，然后选择需要计算的单元格。2.完成计算后，这个公式可以复制ctr+c, 然后选择整列，再ctr+v，应用到整列- 或者点击单元格，方框正下方有个小黄点，可以下拉。

80-70 = 10

60/80 se situe dans les 2 écarts types. 1-1 / 22 = 3/4 = 75%. SO 60 ~ 80 étudiants représentent au moins 75%

V. Statistiques décrites

[ Box carte mappe

Les données de la plage de distribution sont spécifiées par 4 positions.

La boîte représente la moitié de la valeur

à la limite inférieure, indiquant un nombre (plus petit)

à la limite allumée, ledit numéro de données 1/4 (nombre plus élevé)

Remarque: 50% par rapport au prixCoordonner dans une zone plus petite

2. Graphique de graphique

Données de l'axe X, chaque plage / valeur est unique.

Dans les statistiques, le graphique est un tableau graphique de la distribution de données, une carte à double sens et deux coordonnées sont des modèles statistiques et des modèles correspondant à l'échantillon. Mesures d'une exposition spéciale présente sous la forme d'un large tableau.

Parce que la longueur et la largeur du graphique conviennent parfaitement aux performances du nombre de changements, la valeur de la différence est plus facile.

Total de 1000 données, l'utilisation de barils de paramètres = 50 et x les données d'axe sont divisées en 50 parties.

6. Probabilité

1. Intégré et EETAC

Par coïncidence et la coïncidence est destinée. Lorsque vous calculez A et B, il y a plus d'intersections, une intersection partielle doit donc être déduite.

EXPLICATION: Utilisez des formules et des symboles uniquement surLa probabilité de se produire dans l'affaire B a eu lieu. Zone / ronde B dans l'intersection des cercles A et B = probabilité survient dans le cas où B a eu lieu.

Sept. Théorème de Bayes
Exemple 1: Si l'incidence est un millième. Maintenant, il y a une plage de test. C'est dans le cas des patients, 99% de la précision de l'évaluation des maladies du patient, avec 5% des patients atteints de fausse évaluation peuvent avec 5% des patients sans maladie. Maintenant, la gamme de tests indique qu'un patient est malade, alors quelle est la probabilité du patient vraiment malade?

Par conséquent, utilisez la plage de test pour détecter le rapport du nombre total d'échantillons: (4995 +99) /100000100.5.094%
] Cependant, la présente partie de la personne était malade (5094 personnes), 4 995 personnes ont été diagnostiquées à tort. Par conséquent, seuls 1 943% de cette partie de la personne que j'ai découverte sont ceux qui sont vraiment malades.
Une probabilité préalable (expérience historique):

P (A1) signifie la probabilité de la population de la maladie: 0,1%

P (A2)Montre la probabilité d'une population saine: 99,9%

Nouvelles informations:

Les événements B indiquaient que la plage de test a été détectée et identifiée. P (B | A1): En termes de patients réels, la plage de tests est considérée comme la probabilité du patient: 99%

p (B | A2): dans les conditions des personnes en bonne santé, erreur de bande expérimentale est la probabilité du patient: 5%

Théorème bayésien:

Probabilité requise:

P (A1 | B) C'est la probabilité d'un vrai patient dans la condition du patient en utilisant la plage de test. 1,943%

Exemple 2: Un taxi s'échappe après l'accident, un témoin a déterminé que la voiture est bleue. On sait que 85% de taxis dans cette ville est vert, 15% est bleu. La police a été testée et sont considérées comme des témoins qui peuvent déterminer exactement que la probabilité de ces deux couleurs est de 80% et que la probabilité d'erreur est de 20%. Désolé, quelle est la foule?
Notez que si le cerveau est chaotique, intelligentG a une idée:

Dessin de papier (cartes de réflexion Xmind) Supposons une réelle échantillon de données. se termine. Source: MR-Chen Source: Bo Garden Cet article est copié partage, tel que s'il vous plaît contacter l'arrière-plan pour supprimer l'arrière-plan Oui]

Sujets

Les données

Catégories

Analyse des données