0, préambule
Travaux d'analyse des données, la surface produise des rapports de données, l'envoi de rapports analytiques, derrière la réflexion de la pensée analytique évaluée est votre matériau.Si le concept de "réception, du milieu de bureau, de l'arrière-plan" est emprunté, les rapports de données et les résumés appartiennent à "Fores", aux données de traitement des données et d'analyse appartiennent à "Zhongtai" et à des objectifs clairs et à appliquer pensées appartenant à la fondation des Vikings.
La réception est directement confrontée aux clients et est un moyen important de gagner de la valeur. Pour louer la réception, je dis souvent "
belle
".
MTA est né pour la réception. Pour servir une meilleure réception, il s'agit d'un pont entre la réception et l'arrière-plan, jouant un rôle très important, et le milieu est flexible et les commentaires doivent être modifiés,
s'adaptent donc au changement environnemental. Zuche Taiwan, généralement "Capable
".
L'arrière-plan supporte tout le systèmeAnalyse des données, c'est la plate-forme d'analyse de données. En arrivant à Pravan, il est généralement " très fort
".La réception est juste une corne d'iceberg, MTA sous l'eau et de fond, en fait mystère caché.
1, préparer des données
Premièrement, pour prouver des données, nous venons de www. GapMinder.org/Data Téléchargez 2 fichiers de données, nommément la population de personnes du monde entier, la vie attendue est enregistrée dans le répertoire de données du répertoire local actuel.
Lundi, pour faciliter la compréhension, nous avons choisi certains pays en 2018. La première table est le nombre de personnes en Chine et en Inde 2018.
La deuxième table est la vie attendue de la Chine, Japon et la Russie 2018.
Ensuite, nous utiliserons Python pour compléter ces deux tables. Il convient de noter que nous ne pouvons pas expliquer comment organiser les données, choisir quelques méthodes que je pense beaucoupn que, comme indiqué ci-dessous.
2, Connexion externe
Le concept de "connexion" ici, similaire à la fonction de participation au langage de la requête de base de données SQL.
"Connexion externe" fait référence à toutes les lignes de deux tables après organisation, équivalente à deux tables.
Utilisation de la fonction unifiée () dans Pandas, spécifiez la valeur du paramètre "externe", nous pouvons déployer la connexion extérieure des deux tables, dans laquelle le paramètre est utilisé utilisé pour spécifier la colonne. Nom de la connexion, car les deux tables sont associées à la variante de valeur manquante à NA.
3, connexion à l'intérieur
"Connexion interne" équivaut à l'intersection de deux tables, seules deux cartes correspondent mutuellement.
Lorsque le paramètre de la fonction Fusion () n'est pas spécifié, la valeur par défaut est la connexion interne. Si le paramètre n'est pas spécifié, le nom de la colonne par défaut est utilisé comme clé de connexion.
4, Connexion de gauche et connectéI
"La connexion gauche" est la table principale avec le panneau de gauche, même si certains enregistrements n'existent pas dans le panneau de droite, toutes les informations du panneau de gauche sont affichées et la valeur de la condition conjointe fait ne répond pas au panneau de droite. Utilisez le remplacement NAN.
Si la fonction unifiée () spécifie la valeur du paramètre "gauche", la connexion gauche des deux tables est déployée.
"La connexion doit" être similaire à "connexion gauche", échange simplement les positions gauche et droite.
Lorsque la fonction Fusion () spécifie la valeur du «Paramètre droit Droite droite», la connexion droite des deux tables est déployée
5, Cross-connexion
] "Cross Connection de deux tables, mentionnant la première table Toutes les lignes de la deuxième table sont connectées à toutes les lignes de la deuxième table et le nombre de marchandises revient avec la quantité de deux tables et appelée Cartesian en mathématiques .
en Python, reliant CHPOUA peut être divisé en 3 petites étapes:
(1) Augmentez la colonne de verrouillage avec la fonction d'affectation (); (2) utiliser des fonctions unifiées () connectées; (3) Supprimer la colonne de verrouillage.
Utilisez le code suivant pour compléter le fonctionnement de la connexion croisée.
Parce que deux tables ont une colonne "pays", dans le résultat de rendement, le nom de la colonne ajoute automatiquement le suffixe de _x et _y.
6, couture
"Joints de couture", deux tables sont jumelées directement si vous n'excluez pas les données en double. Pour les noms de colonne, deux tables sont directement connectées; Si le nom de la colonne est différent, ils sont divisés en différentes colonnes pour se connecter.
Utilisation de la fonction Concat () dans les pandas, deux tables peuvent être jumelées, dans lesquelles la colonne "pays" haut et bas et d'autres colonnes sont différentes du nom de la colonne, elles sont donc jumelées dans plusieurs Colonnes. La valeur manquante est désignée par NAN.
De plus, la fonction ajoute () peut également atteindre les mêmes fonctions de connexion. Pour ne pas augmenter le fardeauNg de mémoire, cela ne signifie pas légèrement, les amis intéressés peuvent vous demander de l'aide.
Dans le processus d'utilisation de Python, nous pouvons voir que le même problème peut souvent trouver de nombreuses solutions différentes.
Exemple: La méthode introduite ici peut être déployée dans Pandasql, qui consiste à utiliser la manière d'écrire des relevés SQL. Au début des premiers stades de l'apprentissage, nous ne devons pas être emmêlés dans quelle méthode devraient être utilisés pour résoudre les problèmes réels de l'objectif principal, compléter la tâche, puis améliorer progressivement et enrichir continuellement vos connaissances. Le système peut explorer des solutions plus efficaces, ce qui est un processus d'entrée dans Master, des nouveaux arrivants aux propriétaires.
7, petite fourchette
Cet article utilise principalement des fonctions unifiées () et Concat () dans des fonctions de pandas, pour deux tableaux de données simples, fusionnez de différents angles . Habituellement, chaque fonction a une tombeT Nombre de paramètres, dans le fonctionnement réel de l'analyse des données, peut être appelé et spécifié en cas de besoin.
Ce qui suit, cette carte de pensée peut nous aider à prendre soin de la pensée, de l'approfondissement de la compréhension et de la mémoire.
jusqu'à présent, la préparation de l'analyse de données a essentiellement été achevée et le prochain article commencera à analyser des données.
Lorsque les données deviennent riches, les données deviendront des ressources fondamentales et une technologie d'analyse de données peuvent résoudre des problèmes plus réalistes.
Vous ne pouvez pas savoir, car le monde change toujours, mais votre travail aujourd'hui deviendra l'expérience de travail de demain. Pour faire connaissance et pratique, améliorer continuellement le système système de vos connaissances.
Si vous avez des technologies de l'analyse de données, vous pouvez dans Data
Insight , explorer les taches aveugles et les faits saillants de l'entreprise, mettant ainsi en œuvre