L'exploitation minière des données est une partie importante du domaine de l'apprentissage de la machine. Nous devons comprendre le contenu des données. La bibliothèque Pandas fournit de nombreuses fonctions utiles pour cela et de la valeur_Counts comme l'un d'entre eux.
Cette fonction renvoie le numéro de chaque élément de la zone de données Pandas. Mais la plupart du temps pour utiliser la valeur de la valeur est le paramètre par défaut. Par conséquent, dans cet essai, l'auteur explique comment réaliser plus de fonctionnalités via des paramètres personnalisés.
Le procédé renvoie une séquence de séquences, contenant le nombre de chaque valeur. C'est-à-dire que pour toute colonne dans la zone de données, la méthode de valeur () renvoie le nombre de chaque élément.
Series.value_counts()
Source: HTTPS: // Panda. Pydata.org/pandas-docs/stable/reference/api/ pandas.series.value_counts.html
L'auteur passe par le jeu de données suivant Set de musique de base Utilisation de la fonction de numéro de prixRun (), où les ensembles de données Titanic sont utilisés dans la démo. Elle a également posté un manuel de support sur Kaggle. Liens Code: https://www.kaggle.com/parulpandey/five-ways-T-Utilisation -Counts
# Importing necessary librariesimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline# Reading in the datatrain = pd.read_csv( ../input/titanic/train.csv )
train.head()
Les ensembles de données importés
introduisent d'abord les bibliothèques et les ensembles de données requis, qui est l'étape de base de chaque processus d'analyse de données.
Comprendre quelques lignes de premier contenu
train.isnull().sum()
train[ Embarked ].value_counts()-------------------------------------------------------------------S 644C 168Q 77
Comme on peut le voir à partir de la poignée de main d'image ci-dessus, d'âge, de cabine et de colonne avec des valeurs non valides. Grâce à ces analyses, nous avons une compréhension préliminaire de l'ensemble de données. Voyons comment la valeur_counts () est démontrée ces données à découvrir plus loin. Quelles sont les cinq méthodes de haute efficacité?
Deuxièmement, la valeur de paramètre par défaut dans Value_Counts ()
train[ Embarked ].value_counts(normalize=True)-------------------------------------------------------------------S 0.724409C 0.188976Q 0.086614
TimesPremière utilisation Value_Counts () sur l'ensemble de données du jeu de données, il sera dans la colonne de chaque valeur qui apparaît.
Cette fonction compte chaque valeur dans la colonne donnée et est triée par ordre décroissant et les valeurs non valides sont également exclues. Nous pouvons facilement trouver que les personnes de Southampton sont les plus, suivies de Cherbourg et de Queenstown.
Mardi, comment utiliser Value_Counts () pour afficher la fréquence relative de chaque valeur
Parfois, le pourcentage est présenté plus dans un nombre unique. Relation relative de la quantité. Lorsque standardisé = true, l'objet renvoyé contiendra la fréquence relative de chaque valeur. Par défaut, le paramètre normalisé est défini sur False.train[ Embarked ].value_counts(ascending=True)-------------------------------------------------------------------Q 77C 168S 644
Par conséquent, il est plus efficace que d'utiliser 72% de Southampton de Southampton.
Comment atteindre la fonctionnalité d'incrémentalisation () [)
Par défaut, la commande est renvoyée par valeur_counts ().désespoir. Nous devons simplement définir les paramètres pour augmenter en vrai, vous pouvez transformer la commande en augmentant.
train[ Embarked ].value_counts(dropna=False)-------------------------------------------------------------------S 644C 168Q 77NaN 2
Comment afficher la valeur de comptage de la valeur NAN Comment utiliser Value_Counts () valeurs invalides non valides (NAN) ne sont pas inclus dans le résultat. Mais avec la dernière fois, il suffit de définir le paramètre Drowna, vous pouvez également compter les valeurs non valides. Nous pouvons observer visuellement qu'il existe deux valeurs non valides dans cette colonne. Vendredi, comment mettre des données en permanence dans des distances discrètes Il s'agit de l'auteur du plus préféré de valeur_counts (), il est très utile. Modifiez la valeur du paramètre bin, la valeur_counts peut définir des données continues dans la section discrète. Cette option n'est utile que lorsque des données numériques. Il est très similaire à la fonction PD.CUT, voyons-le comme un grand homme dans le tarif! Ce résultat ne nous fait pas savoirQuelles informations parce que la liste est trop.Alors rassemblez-le dans 7 périodes de temps. Les résultats des binning sont plus faciles à comprendre.Nous pouvons facilement constater que la plupart des gens paient des billets inférieurs à 73.19.De plus, nous pouvons également trouver qu'une période de temps est ce dont nous avons besoin et ne possédez pas deux des passagers. Par conséquent, nous pouvons voir la fonction Value_Counts () comme un outil très pratique, nous pouvons utiliser cette ligne de code pour une analyse intéressante.