Skip to main content

Le processus d'analyse est le suivant: collecte de données, nettoyage des données, analyse de modélisation, visualisation


Deux, collection de données Ceci est nos données brutes, XLSX Format
Entrez le package de liaison et lisez les données, lisez avec l'objet lors de la lecture, évitant certaines données de lecture.

Vous pouvez afficher des informations sur les données

de l'image ci-dessus, nous pouvons voir un total de 6578 données de données, dans lesquelles la première ligne est le titre, 7 colonnes. "Time Pharmaceutical" et "Numéro de carte de sécurité sociale" ont 6576 données, tandis que 6577 restants, indiquant que cela manque de telles données. "Push the Time" et "Numéro de carte de sécurité sociale" manquent d'un flux de données, où nous devons continuer à traiter les données des valeurs manquantes.
Mardi, Données de nettoyage

Le processus de nettoyage des données comprend: Choisissez un sous-ensemble, un nom de colonne, une prise de la valeur manquante, convertir le type de données, gérer le prix exceptionnel de traitement et de données de données. 3.1 Choisissez un sous-ensemble.
Dans le processus d'analyse des données, il peut être énorme, mais toutes les colonnes sont précieuses pour analyser, cette fois, vous devez choisir un enfant utile défini à partir de ces données, pour améliorer la valeur et l'efficacité de l'analyse. Mais cet exemple n'a pas besoin de choisir un sous-ensemble, vous pouvez ignorer cette étape.
3.2 Le nom de la colonne est nommé. Dans le processus d'analyse des données, certains noms et données de colonnes sont facilement confus ou ignorés. Par exemple, la première colonne de ce jeu de données est "Heure d'achat du médicament", mais nous devrions analyser les données lorsque nous analysons les données. Il sera donc plus clair qu'il ne sera plus clair. Ici, la fonction de renommage peut être utilisée pour atteindre:

3.3 Manquant.
Les données obtenues sont susceptibles de survivre à cette valeur manquante, affectant les résultats de l'analyse. Nous avons visionné les informations de base du jeu de données et trouvons "temps d'achat" et "numéro de carte de sécurité sociale". Ici, vous pouvez utiliser la fonction Dopna pour supprimer la valeur manquante:

3.4 Convertir des types de données. Lors de la saisie de données, pour empêcher l'entrée, Python sera obligé de convertir en types d'objet, mais ces types de données ne sont pas bénéfiques pour le fonctionnement et l'analyse au cours du processus d'analyse. Par exemple: "Quantité de vente", "la quantité de réception" devrait être un point flottant.
Dans les données "Durée des ventes", il y a une semaine de semaines, mais il n'est pas nécessaire d'utiliser dans le processus d'analyse des données, donc diviser la fonction de séparation dans la colonne de vente de vente et heure de la fonction de séparation Retourne un type de données série:

Les dates de coupe sont converties en format de temps, pratiques pour les statistiques de données ultérieurement et peuvent utiliser la fonction ASTYPE () pour convertir d'autres données à d'autres données:


3.5 Manipulation de la valeur extraordinaire.


Pour cette étape, nous pouvons utiliser la fonction de description () pour voir s'il existe encore une exception:

Nous pouvons voir que le minimum minimum est négatif, cettesont des valeurs inhabituelles. Ceci est une valeur anormale, à l'exclusion des valeurs extraordinaires. Nous pouvons créer un masque pour filtrer des données normales, supérieures à 0, exclure les valeurs négatives dans la colonne "Sales":
Suivant, vous pouvez utiliser la fonction Drop_duplicates () Supprimer les données en double:

3.6 Données de tri. Les données à ce moment-là sont toujours déroutantes et non triés dans un certain ordre. Selon les habitudes, nous pouvons organiser des données au fil du temps:

Cette étape est également réinitialisée à l'index d'index

, notre travail de nettoyage de données est terminé le travail.
Quatrième analyse, modélisation

Après traitement des données, il est nécessaire d'utiliser le modèle de construction de données pour calculer les indicateurs d'entreprise concernés et présenter les résultats intuitive.


Numéro de consommation menstruée = consommation totale par mois

Montant de la consommation

Consommer= Montant total de consommation / mois


Prix personnalisé = montant total de la consommation / consommation totale
5, chimie intuitive

5.1 Tendance de la consommation La tendance des graphiques de consommation présente le cas de la vente de médicaments tous les jours. La première introduction du paquet associé:


peut être vue des résultats, la consommation totale par jour est grande, à l'exception des jours individuels, la plupart des personnes ont un relativement Consommation importante, la plupart des consommateurs sont maintenus à moins de 500 yuans.

Montant de la consommation mensuelle
En conséquence, la consommation en juillet est au moins, car les données de juillet sont incomplètes, il n'y a donc pas de traitement de référence de prix.
En janvier, avril, mai et juin, le montant de la consommation mensuelle était différent, février et le mois d'argent a été réduit rapidement, capable d'entrer dans le festival de printemps en février et mars, la plupart des gens rentrent chez eux pour la nouvelle année 5.3 Sale de la drogue
Deux colonnes "Nom du produit" et "Quantité de vente" sont synthétisées dans la série de séries, pratique pour les statistiques en arrière et disposées en soumission auto-réduisant:
Bloc TOP Médicaments sur la quantité de vente et les résultats d'affichage avec des graphiques à barres:

Le dernier écran de dessin:

a reçu dix informations top médicamentes sur les quantités de ventes, ces informations devront soutenir les hôpitaux de la pharmacie.

Sujets

Catégories