Pour les personnes intéressées par les données, l'analyse des données ou la science des données, la fourniture de la liste des projets scientifiques de données peut être complétée avec le temps libre 14!
L'article est divisé en trois catégories:
Projet d'analyse de données prospective (EDA)
Modèle prévu
1 . Projet visuel
Le plus facile est de visualiser des données, les trois ensembles de données suivants peuvent être utilisés pour créer des effets visuels intéressants et ajouté votre CV.
1. Virus Visual New Crown
Comment construire des données de marketing dynamiques en utilisant la pièce de lecture, montrant la manière dont la coronavirus se propage dans le monde entier. Plairly est très utile, il peut effectuer une opération visuelle, magnifique et facile à utiliser.
Facile à niveau: ⭐
Dataset: https://www.kaggle.com/sudalairajkumar/novel-corona -virus-2019-Dataset
Instructions: https://TowardsDaticienceCompience.com/visualizIng-the-coronavirus-pandemia-with-choropeth-maps-7f30fccaecf5
Saison puissante 2019-12020, également connue sous le nom de saison noire été, y compris Quelques flammes extrêmes à partir de juin 2019. Selon les statistiques de Wikipedia, cet incendie a brûlé environ 18,6 millions d'hectares de terres et de 5 900 bâtiments.
Il s'agit d'un projet intéressant qui peut utiliser la visualisation de la visualisation des données playly ou matplotlib pour visualiser la taille des effets de forêt et géographique.
Difficulté:
Dataset: https://www.kaggle.com/carlosparadis/fires-de-space-australia-and-New -
3. Visualisez la température de surface
Avez-vous suspecté le réchauffement de la planète? Créez des effets visuels de données, montrant comment la température de surface change au fil du temps et peut être déployée en créant une autre ligne ou un autre diagramme d'animation de la texture de choropeth! Vous pouvez également créer un modèle anticipé pour prédire la chaleurDegré de la Terre au cours des 50 prochaines années.
HAVERNESS:
Dataset: https://www.kaggle.com/berkeleeearth/Climate-Change-earth-surface-temperature-Data / noyaux
II. Analyse de projet des données d'exploration
Analyse des données d'exploration (EDA), également appelée mining de données, ce qui signifie de nombreuses données techniques utilisées dans le processus d'analyse afin de mieux comprendre les données.
1. MINITION DE DONNÉES DE NEW YORK AIRBNB
Depuis 2008, Airbnb a rendu les visiteurs et les propriétaires plus pratiques et proposent des mondes plus personnalisés. Les ensembles de données contiennent des informations sur le loyer de New York en 2019 et comprennent des informations géographiques, des prix et des quantités d'évaluations.
Certains angles peuvent être analysés comme suit:
Quelle activité de la zone est la meilleure, pourquoi?
Quelle zone est plus grande que d'autres domaines, pourquoi?
Existe-t-il un certain nombre de relations entre les prix, la quantité de commentaires et les réserves?Facile à séjourner:
Dataset: https://www.kaggle.com/dgomonov/new-york-city-airbnb-Open-Art Data
2. Les faibles quels éléments Sont liés à la démission et à la performance des employés
IBM révèle un ensemble de données intégré, peut l'utiliser pour comprendre comment différents facteurs influent sur la perte d'employés. Taux et satisfaction. Certaines variables comprennent des niveaux d'éducation, des travaux connexes, d'évaluer les performances et le solde du travail.
Analyse de ce jeu de données, la recherche de variables affectant la satisfaction des employés, en outre, vous pouvez voir si la variable peut être pliée.
Facile à rester: ⭐
Dataset: https://www.kaggle.com/ Pavansubhasht / IBM-HR-Analytics-Dataset-Dataset
3. Classement université mondial
Pensez-vous que votre pays a la meilleure université du monde? Quelles sont les mesures des universités? Ce jeu de données contientTrois classements de l'Université mondiale. Avec ces données, vous pouvez répondre aux questions suivantes:
De quel pays sont les deux universités?
Quel est le facteur principal dans la détermination du classement mondial?
Facile à séjourner:
Dataset: https://www.kaggle.com/mylesoneill/world-university -rankings
]
4. Boire et pendant la performance de l'école
Voulez-vous affecter la réussite des élèves? Sinon, quoi d'autre? Ces données proviennent d'un étudiant créé par des cours de lycée et des cours portugais. Il contient des variables telles que la consommation d'alcool, le nombre de familles, participer à des activités parascolaires.
Utilisation de ces données, cliquez sur la relation entre le score de champ et les différents facteurs. Voir également si vous pouvez prédire la réussite des élèves selon d'autres variables!
Dataset: https://www.kaggle.com/uciml/student-alcohol-conser
5. Mining de données ELF pour animaux de compagnie
Pour tous les joueurs de jeu, il s'agit d'une information définie à partir de sept générations 802 Pokemon. Essayez de répondre aux questions suivantes!
Quels animaux de compagnie sont les plus forts? Quel est le point le plus faible?
Quel bébé magique est le plus fort? Quel est le plus faible?
Puis-je mettre en place une classification pour identifier un bébé magique?Il existe une corrélation entre les caractéristiques physiques et les forces (infraction, défense, vitesse, V.V.)?
Facile à rester:
Dataset: https://www.kaggle.com/rounakbanik/pokemon
6. Découvrez Facteurs affectant la vie attendue
qui définit les ensembles de données pour toute la santé nationale pendant une période de temps, y compris les données de données système pour la vie attendue, le taux de mortalité des adultes. Utilisation de ce jeu de données, explorant la relation entre différentes variables, le facteur maximum de la vie est attendu?
Essayez de répondre aux questions suivantes:
Différentes prédictions ont choisi vraiment d'affecter la vie attendue? Quelles sont les prédictions qui affectent vraiment quelle est la vie attendue?
La valeur de la vie attendue ci-dessous (& LT; 65) augmentera ses dépenses de santé pour améliorer leur espérance de vie moyenne?Comment les nouveau-nés et les décès affectent la vie attendue?
Vie et habitudes alimentaires positives ou négatives, style de vie, exercice, fumeur, vin buvant, v.v.
L'éducation affecte-t-elle la vie humaine?Ce qui devrait impliquer de boire ou de négatif?
La durée de vie attendue de la Nation dense a tendance à diminuer?
Quel est l'impact sur la vie attendue?Difficulté:
Dataset: https://www.kaggle.com/kumarajarshi/Life-Expectrocky-who
3. Prédiction des tissus
1. Prédisez la série chronologique sur la consommation d'énergie
Cette définition de données comprend des données de consommation d'énergie sur le site Web de PJM parmi les organisations de transmission régionales des États-Unis. Utilisez ce jeu de données pour voir si le modèle de série chronologique peut être prédit. Vous pouvez également voir si vous pouvez trouver des tendances toutes les heures de la journée, des vacances électriques et des tendances à long terme!
Facile à séjourner:
Dataset: https://www.kaggle.com/robikscube/hourly-energy-Conser
]
Ces données ont été collectées à partir de Vidhya Analytics, dont 615 lignes et 13 colonnes liées aux prêts historiques approuvés et non approuvés. Information. Vous pouvez créer un modèle pour prédire si le prêt sera approuvé ou non.
Facile à rester:
Dataset: https: //datahak.analyticsvidhya.com/Contest/practice-prob-loan-Prodiction-III/
3. Calculateur de prix de la voitureUtilisation de
Craigslist est le plus grand courtier automobile utilisé au monde, y compris les données prises de Craigslist, à jour après quelques mois. Utilisez ce jeu de données pour voir si vous pouvez créer un ensemble de données pour prédire si le prix de la voiture est submergé ou sous-estimé.
Difficulté:
Dataset: https://www.kaggle.com/austinree/craigslist-carstrucks-data
Le jeu de données affiche une transaction qui se produit en deux jours, dont 492 fraudes dans 284 807 transactions. Données hautement distribuées, frauduleuses représentant 0,172% du total des transactions. Apprenez à utiliser des ensembles de données indisponibles et de créer des modèles de fraude par carte de crédit. Facile à rester: ⭐⭐⭐⭐ Dataset: https://www.kaggle.com/janiobachmann/credit-fraaud-dealing-phan Set de données 5. Détection d'images de cancer de la peau Le réseau nerveux est construit 10.000 images pour détecter le cancer de la peau.C'est certainement le projet le plus difficile, nécessite des réserves pour les nerfs et l'identification de l'image. Difficulté: ⭐⭐⭐⭐⭐ Dataset: https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000