Dans une perspective élevée, les statistiques sont des technologies qui utilisent la théorie mathématique pour effectuer une analyse de données. La forme d'image visuelle de base de la carte pilier vous fournira des informations plus complètes. Cependant, nous pouvons opérer d'une autre manière d'information et selon les statistiques ciblant. La théorie mathématique pertinente nous aidera à former des conclusions spécifiques sur les données, non seulement devinera.
À l'aide de statistiques, nous pouvons plus profondément, observé comment plus de données sont tenues exactement et comment appliquer d'autres technologies connexes basées sur la structure de structure de cette organisation. Se procurer plus d'information. Aujourd'hui, examinez les cinq concepts statistiques de base que les scientifiques de données doivent être compétents et appliquer efficacement.
Les statistiques caractéristiques peuvent être le concept statistique le plus courant de la science des données. Il s'agit d'une technologie statistique que vous utilisez souvent lors de l'étude des ensembles de données, y compris la déviation, la méthodemal, moyen, moyen, pourcentage et plus. Comprendre les caractéristiques et très facile à faire en code. Veuillez suivre l'image ci-dessous:
Dans l'image ci-dessus, la ligne intermédiaire indique le séparateur des données. La moyenne est utilisée en moyenne car elle a de fortes anomalies. Le premier numéro Quad est essentiellement une population de vingt-cinq, ce qui signifie que 25% des données sont inférieurs à cette valeur. Le troisième trimestre est de soixante-quinze cents de populations, ce qui signifie que 75% des données sont inférieures à cette valeur. La valeur maximale et minimale indique le haut et le bas de la plage de données.
Le graphique de la boîte illustre de nombreux rôles de statistiques de base:
Lorsque le graphique de la boîte est très court, cela signifie de nombreuses données similaires, car de nombreuses valeurs sont distribués dans une petite gamme;
si tVABS près du bas, la plupart des données sont plus basses. Si la médiane est proche du sommet, la plupart des données sont plus élevées. Fondamentalement, si les lignes moyennes ne sont pas au milieu de la boîte, il dévie de données;
Si les lignes supérieure et inférieure de la boîte indiquent que les données ont une écart et une variance standard élevées, ce qui signifie que ces valeurs sont dispersées et ont beaucoup changé. S'il y a une longue ligne sur le côté, ce n'est pas long, puis les données ne peuvent changer que dans une direction;
II. Distribution de probabilités
Nous pouvons définir la probabilité spécifiée pour certains événements qui se produiront, spécifiés en pourcentage. Dans le domaine de la science des données, cela est généralement quantifié dans une plage de 0 à 1, dont 0 indique que la détermination des événements ne se produit pas et 1 signifie déterminer l'événement se produira. Après cela, la distribution de probabilité est une fonction qui représente la probabilité de valeurs possibles. S'il vous plaît voir l'image ci-dessous:
La distribution uniforme est la méthode de distribution de probabilité la plus élémentaire. Il a une valeur qui apparaît dans une certaine gamme, tandis que c'est 0 dans la gamme. Nous pouvons également le considérer comme une variable avec deux types: 0 ou une autre valeur. Les variables de classification peuvent avoir de nombreuses valeurs différentes de 0, mais nous pouvons toujours les visualiser en plusieurs fonctions de division de dispersion uniforme;
Distribution normale, souvent appelée distribution gaussienne, notamment déterminée par la valeur moyenne et son écart type. La valeur moyenne est distribuée dans l'espace et l'écart type contrôle sa gamme diffuse de distribution. La principale différence par rapport aux autres méthodes de distribution est l'écart type dans toutes les directions est la même. Par conséquent, par la distribution gaussienne, nous connaissons la valeur moyenneLe ballon de données définit et distribuant des écarts de données de données, ce qui signifie qu'il est étendu dans une plage relativement large ou principalement distribuée autour de quelques valeurs.
La distribution de Poisson est similaire à la distribution normale, mais il y a une vitesse de déviation. Comme une distribution normale, la distribution de Poisson a une diffusion relativement uniforme dans les directions correspondantes dans le cas de valeurs de faible déformation. Cependant, lorsque la valeur est trop grande, nos données dans différentes directions seront différentes. Dans une direction, la diffusion de données très élevées et dans d'autres directions, niveaux de diffusion très faibles.
Si nous rencontrons une distribution gaussienne, nous savons qu'il existe de nombreux algorithmes qui seront bons dans le dos, nous devrions donc la trouver d'abord. Ces algorithmes. S'il s'agit de la distribution de Poisson, nous devons être très prudents, choisissez un bon algorithme de puissance dans l'extension de l'espace.
Trois. De toute façon
Détruire le NCe noyau peut être très intuitif, ce qui signifie de réduire la taille d'un ensemble de données. Dans la science des données, il s'agit du nombre de fonctionnalités variables. Veuillez consulter la photo ci-dessous:
Cube dans l'image sur la représentation de notre ensemble de données, il a un total de 1000 points en trois dimensions. Avec la puissance de calcul actuelle, il est facile de calculer 1000 points, mais s'il est plus grand, ce sera en difficulté. Cependant, seulement à partir d'une perspective bidimensionnelle, comme du point de vue du cube, on peut voir que toutes les couleurs sont faciles. En dépoussiérant, nous montrons des données 3D aux avions 2D, ce qui aide à réduire le nombre de points que nous devons calculer en 100, ce qui aide à économiser beaucoup de calculs.
Une autre solution est que nous pouvons réduire la taille en fonction du forfait des caractéristiques. Avec cette méthode, nous supprimons toutes les fonctionnalités sans importance. Par exemple: après avoir étudié le jeu de données, nous pouvons voir qu'en 10 fonctionnalités, il existe sept caractéristiques et sorties avec des corrélations élevées, dansLorsque trois points ont des corrélations très faibles. Après cela, les caractéristiques de ces trois faibles corrélations peuvent ne pas être calculées, nous ne pouvons que les supprimer de l'analyse sans affecter la sortie.
Échantillons et sont essentiellement techniques aux problèmes de classification. Par exemple, nous avons 1 classification de 2000 échantillons, mais la deuxième classification n'est que de 200 échantillons. Cela jettera de nombreuses techniques d'ingénierie que nous essayons d'utiliser pour modéliser et prédire les données. Après cela, des échantillons d'échantillons et de travail peuvent résoudre cette situation. Veuillez consulter la photo ci-dessous:
À gauche et à droite de ce qui précède, il y a plus d'échantillons que la classification d'Orange. Dans ce cas, nous tOH Vous avez 2 options pré-traitées pour aider à former des modèles d'apprentissage de la machine.
L'échantillon fonctionne que nous sélectionnerons uniquement certaines données de la classification des échantillons et d'utiliser les modèles de classification le moins possible. Ce choix est de maintenir la répartition de la probabilité de classification. Nous ne faisons que des ensembles de données plus équilibrés grâce à moins d'échantillonnage.
À travers l'échantillon, nous créerons une copie d'une classification minoritaire pour avoir le même nombre d'échantillons que la plupart des catégories. Des copies seront produites dans une distribution de quelques classifications. Nous ne faisons que des ensembles de données plus équilibrés sans obtenir plus de données.
ans. Statistiques de Bayes
• Pourquoi la première position doit-elle comprendre la fréquence de l'échec lorsque nous utilisons des statistiques de Bayes? La plupart des gens écoutent la «probabilité», les statistiques de fréquence sont les types de statistiques qui sont d'abord pensées. Cela implique l'application de la théorie mathématique pour diviserH Probabilité du problème, cela indique clairement que nos données de calcul uniques sont des données précédentes.
En supposant que je vous ai donné des dés, vous demandant à quel point la possibilité de lancer, la plupart des gens disent que c'est un tiers. Cependant, si quelqu'un vous fournit un dés spécifique pour lancer 6 points? Étant donné que l'analyse de fréquence ne concerne que les données précédentes, il n'est pas pris en compte pour des éléments de votre fraude.
Les statistiques de Bayes sont effectivement pris en compte, nous pouvons donner une explication à travers la loi Bayes:
Si l'analyse de fréquence est très bonne,Nous confirmerons très confiance, suppose que 6 points sont corrects.Dans le même temps, si la triche Scorpion est vraie ou non basée sur une analyse probabilité et des fréquences individuelles, nous examinerons également des éléments frauduleux.Comme vous pouvez le constater des équations, les statistiques de Bayes ont examiné tous les éléments.Lorsque vous pensez que les données précédentes ne peuvent pas être bien effectuées par des données et des résultats futurs, les méthodes statistiques Bayes doivent être utilisées.