Skip to main content

Les scientifiques de données ont un talent synthétique avec une vision ouverte. Ils ne disposent que d'une plate-forme scientifique de données solide, telle que les mathématiques, les statistiques, les ordinateurs, etc il existe une variété de connaissances et d'expériences de données sur les scientifiques de données par l'intermédiaire du curcuma public et de la profonde expertise. Problèmes de données complexes dans un certain nombre de sciences, développant ainsi des forfaits de données importants et des stratégies qui conviennent à différents planificateurs. Les analystes de données et les scientifiques de données utilisent des outils disponibles sur les MOOC en ligne, tels que le 1er février 2016 Cours de sciences de la science des données de l'Université John Hopkins et des cours autres en ligne. Les outils communs des scientifiques de données sont intégrés aux idées de base et aux données intégrées, aux problèmes connexes et aux analystes de données et aux scientifiques de données.


1. Spark
Dans la grande section de données d'Apache, Spark est l'un des endroits les plus populaires, spécial LUne profonde participation de lourds contributeurs comme IBM. Faire le développement et les progrès des étincelles rapidement. Le point d'étincelle le plus doux avec des étincelles est toujours dans le domaine de l'apprentissage de la machine. Depuis l'année dernière, API Dataframes remplace API Schemardd, similaire à R et Pandas Discovery, veuillez accéder aux données plus faciles que l'interface RDD d'origine. Le nouveau développement de Spark a également un nouveau flux de travail, le support pouvant être extensible et optimal, des interfaces plus simples pour accéder aux algorithmes de la machine, améliorer la surveillance des ressources en grappes et la surveillance du trafic. Spark-packages.org a plus de 100 contributions tierces à la Site, a augmenté de nombreuses fonctionnalités utiles.

2. Storm


Storm est un projet de cadre informatique dispersé dans le projet Apache, principalement pour transmettre des données dans des champs de traitement en temps réel. Il est basé sur des idées de mode interactif à faible retard pour répondre aux besoins complexes de la manipulation des événements. Contrairement aux étincelles, les tempêtes peuvent créer une manipulation aléatoire un point, non seulement cTravaux de micro-ordinateur et demande de mémoire inférieure. Dans mon expérience, il a un avantage plus avantageux de transmettre le traitement des données, en particulier lorsque des données entre les deux sources de données nécessitent un traitement rapide des données. Spark masque beaucoup de rayons temporaires, mais des étincelles ne conviennent pas dans des scripts d'application dans de nombreux traitements de données filetés. Les tempêtes utilisent souvent Apache Kafka pour travailler avec Apache Kafka.


3. H2O
H2O est un outil de traitement de la mémoire dispersé pour apprendre la machine, avec des algorithmes d'ensemble impressionnants. Les versions précédentes prennent en charge la langue R, la version 3.0 Démarrer le support de langue Python et Java et il peut également être utilisé comme étincelle au moteur d'exécution arrière. La meilleure façon d'utiliser H2O consiste à utiliser une extension de mémoire importante de l'environnement R. Environnement R ne fonctionne pas directement sur un ensemble de données volumineux, mais en élargissant le protocole de communication, tel que le repos API, H2O, H2O pour gérer une grande quantité de données. Travailler. Certaines extensions utiles sont utiles, telles que DDPLYEmballé, vous permettant de casser la capacité de mémoire sur la machine locale lors du traitement des ensembles de données à grande échelle. Vous pouvez exécuter H2O ou Cluster / Hadoop Fibre Cluster ou Docker Conteneur sur EC2. Avec SODA (Spark + H2O), vous pouvez accéder à une étincelle RDD sur le cluster, une fois la trame de données manipulée dans des étincelles. Après cela, il a été transmis à un algorithme H2O.

4. Apex


L'APEX est une plate-forme de manutention de données de grande taille qui prend en charge le traitement de données de livraison en ligne instantané ou le traitement de données de masse. Il peut s'agir d'un programme racine de la fibre qui prend en charge un outil de traitement de données d'écoulement à grande échelle, qui peut être étendu, prenant en charge des méthodes résistantes aux erreurs. Il soutient la gestion générale des événements et la garantie de cohérence des données (manipulation précise, au moins une fois, maximum). Auparavant, le datorrent a développé des logiciels de traitement commercial basés sur APEX, code, documents et conceptions architecturaux montrant que l'APEX peut clairement séparer le développement des applications et les codes d'utilisateur n'ont souvent pas besoin de savoirProcessus de lecture en ligne de cluster Rong. Malhaner est un projet connexe qui fournit plus de 300 formulaires de candidature couramment utilisés pour réaliser une logique commerciale populaire. La bibliothèque de liaisons de Malhare peut réduire considérablement le temps nécessaire pour développer des applications apex et fournir des connecteurs et des pilotes qui connectent des ensembles de stockage, des systèmes de fichiers, des messages système, des bases de données. Et peut être étendu ou personnalisé pour répondre aux exigences des entreprises individuelles. Tous les composants Malhars sont utilisés dans les licences Apache.
5. DRUID

Druid a été transformé en une licence Apache conviviale en février de cette année, un "outil hybride basé sur le flux d'événements pour répondre à la solution OLAP" initialement, il s'appliquait principalement à la Zone de traitement des données de la publicité en ligne, Druid permet aux utilisateurs d'effectuer une analyse arbitraire et interactive basée sur les données de la série chronologique. Certaines caractéristiques essentielles incluent la manipulation des événements tardifs, une synthèse rapide, calculer près de DFeu et correct. Le noyau druid est un bouton spécifique pour gérer chaque partie du magasin de données de problème personnalisé. L'analyse en temps réel est traitée en fonction du bouton de gestion en temps réel (JVM) et des dernières données stockées dans le bouton Historique sont responsables des anciennes données. Agent de requête en temps réel direct et boutons d'historique pour fournir aux utilisateurs une information complète d'événement. Le chèque indique que 500 000 données d'événement peuvent être complétées en une seconde. Et la capacité de gérer chaque seconde peut atteindre 1 million de pics, Druid est la plate-forme de traitement en temps réel idéale pour gérer la publicité en ligne, le trafic réseau et les autres flux d'exploitation.

6. FLINK

Le noyau de FLINK'S est un outil de flux de données de flux d'événements. Bien que la surface soit similaire aux étincelles, les flux sont effectivement traités dans une mémoire différente. Premièrement, FLINK commence comme un processeur de flux de la conception. Le lot n'est qu'un cas particulier de traitement de flux avec le statut de début et de fin et de flexion fournisAPI Pour gérer différents scénarios d'applications, que l'API (lot) et le flux de données ont. Les développeurs de Mapreduce devraient ressentir à la maison face à l'API de traitement de données et à transférer des applications pour plier très facilement. À bien des égards, les flux et les étincelles sont identiques, leur simplicité et leur consistance le rendent populaire. Comme étincelle, le flux est écrit à Scala.

7. Elasticsearch


Elasticsearch est basé sur les serveurs de fichiers distribués de la recherche Apache Lucene. Son noyau, Elasticsearch peut accéder à un accès complet à temps plein à temps plein en temps réel en temps réel en temps réel au format JSON. Combinée à des outils d'affichage KIBANA open source, vous pouvez créer une interface visuelle de données impressionnante. Elasticsearch est facile à installer et à développer et il peut utiliser automatiquement un nouveau matériel en cas de besoin. Sa syntaxe de requête et SQL ne sont pas identiques, mais c'est aussi un json familier. La plupart des utilisateurs ne font pas de poissonC Données interactives à ce niveau. Les développeurs peuvent interagir avec certaines interfaces JSON-Over-HTTP ou une langue de développement couramment utilisée, y compris Ruby, Python, PHP, Perl, Java, JavaScript, V.V.


8. SLAMDATA

Si vous recherchez un outil convivial, vous pouvez comprendre les dernières données de données unicité populaires, alors vous devriez voir SLAMDATA. SlamData vous permet d'utiliser la syntaxe SQL familière pour effectuer des données JSON de requêtes imbriquées, ne pas basculer ou changer de syntaxe. L'une des principales caractéristiques de cette technologie est son connecteur. De MongoDB, HBASE, Cassandra, Spark, SlamData, avec la plupart des sources de données non standard de l'industrie, peut facilement intégrer et convertir une analyse des données et des données. Vous pouvez demander: «Je n'ai pas de meilleur entrepôt de données ou outil d'entrepôt de données?» Ce crédit est dans le champ NOSQL.

9. Forage


La perçage est un système distribué d'analyseG Travaillez de gros ensembles de données, apportez Google Foracs. Le foret est conçu pour analyser la faible latence de données imbriquées, dispose d'une cible de conception flexible claire qui dure jusqu'à 10 000 serveurs pour gérer les journaux de requête et prennent en charge les enregistrements de données de niveau MEGA. Les données imbriquées peuvent être extraites de nombreuses sources de données différentes (telles que HDFS, HBASE, Amazon S3 et Blobs) et une variété de formats (y compris JSON, Avro et tampons), vous n'avez pas besoin de spécifier le mode lors de la lecture ("" Lecture mode ") Interfaces JDBC à connecter à votre outil BI préféré.
10. HBASE

HBASE a atteint la version 1.x cette année et s'améliore en permanence. Comme le stockage des données distribuées sans autres relations, les résultats de la requête de Hbase sont très rapides,Par conséquent, ils sont généralement courants pour les moteurs de recherche de fond, tels que eBay, Boo et Yahoo. En tant que logiciel stable et mature, les nouvelles fonctionnalités de HBASE n'apparaissent pas régulièrement, mais cette stabilité est souvent la plus intéressée. Les récentes améliorations comprennent l'augmentation des serveurs régionaux pour améliorer la haute disponibilité, la mise à niveau de rouleaux de soutien et la compatibilité des fibres. Dans vos fonctions mises à jour, il existe une mise à jour du scanner pour assurer une performance améliorée, en utilisant HBASE comme une application de lecture en ligne, telle que la capacité de stockage persistante de Storm et Spark. HBASE peut également prendre en charge les requêtes SQL via Phoenix Project et SQL Compatibilité régulièrement. Phoenix a récemment ajouté un connecteur d'étincelles pour ajouter les fonctions des fonctions personnalisées.


11. HIVE
Avec le développement de la ruche pendant de nombreuses années, la version officielle a été publiée cette année, utilisée pour un entrepôt de données basé sur SQL. HIl est principalement centralisé sur l'amélioration de la performance, de l'évolutivité et de la compatibilité SQL. La dernière version 1.2 a considérablement amélioré la compatibilité des langues acides, la copie du centre de données croisé et l'optimiseur basé sur des coûts. Hive1.2 offre également une compatibilité SQL améliorée pour rendre l'organisation plus facile à passer des entrepôts de données existants via les outils ETL. Dans la planification, l'amélioration principale: Améliorer le LLAP, une étincelle avec une vitesse de cache sous forme de bibliothèques d'apprentissage de la machine en composant, améliorant les sous-packs entre SQL, support intermédiaire, V.V.
12. Kylin

Kylin est un système d'analyse OLAP développé par le développement d'eBay. Il utilise la syntaxe SQL standard et de nombreux produits d'analyse de données d'image. Kylin a utilisé de la nid d'abeille et de construire des cubes, nid d'abeille utilisée comme liaison à l'avance, M. HDFS est utilisé pour stocker des fichiers intermédiaires lors de la construction de cubes, HBASE est utilisé pour stocker des cubes, le processeur de cuivre de HBASE (processeur de collaboration) de HBASE pour répondre à des requêtes. Comme la plupart des autres applications Analytics, Kylin prend en charge plusieurs méthodes d'accès, y compris l'interface API JDBC, ODBC et REST API.

13. CDAP


CDAP (Plate-forme d'accès aux données CASK) est une trame en cours d'exécution sur Hadoop, complexité abstraite de la construction et exécutant de grandes applications de données. CDAP entoure deux concepts de base: données et applications. Le jeu de données CDAP est l'affichage logique des données, quelle que soit la couche de stockage ci-dessous; CDAP offre la possibilité de gérer les flux de données en temps réel. Cette application utilise des services CDAP pour gérer les situations d'application telles que les transactions distribuées et l'exploration des services, en évitant les développeurs de programmes dans les détails de base de Hadoop. Cadres de données autonomes et certaines applications et certains "forfaits" universels, tels que l'analyse de l'ETL et le site Web, le support, le débogage et la sécurité. Comme la plupart des projets d'entreprise originaux(Source prépayée), CDAP a une bonne documentation, des instructions et des exemples.

14. Ranger


Safe est toujours une douleur dans Hadoop. On n'a pas dit qu'il est souvent signalé que Hadoop est "dangereux" ou "dangereux". La vérité est que Hadoop a beaucoup de fonctionnalités de sécurité, bien que ces fonctions de sécurité ne soient pas fortes. Je veux dire, chaque composant possède sa propre mise en œuvre d'authentification et d'autorisation, non intégrée à d'autres plates-formes. En mai 2015, HortonWorks a acheté du loin / la sécurité, puis nous avons des forêts après avoir renommé. Ranger crée de nombreux composants clés Hadoop dans la zone de protection, vous permettant de définir «la stratégie» pour sécuriser votre Hadoop avec le système d'autorisation et d'authentification ACL actuel basé sur Active Directory. Ranger vous fournit un endroit où gérer le contrôle d'accès Hadoop, la gestion, l'audit, le cryptage via une belle page.
15. MESO

MESOS fournit de manière efficace et distribuée et partageant des applications, soutenantBarbaric Hadoop, MPI, Superable, Spark, V.V. MESOS est un projet open source dans Apache Incubator, à l'aide de ZooKEeper pour exercer la tolérance aux défauts, à l'aide de conteneurs Linux pour isoler les tâches, en soutenant de nombreux exercices de planification (mémoire et processeur). Fournissez à l'API Java, Python et C ++ pour développer de nouvelles applications parallèles, fournissant des interfaces utilisateur Web pour afficher des clusters. L'application MESOS (cadre) est combinée à un mécanisme de planification à deux niveaux pour les ressources de cluster, donc écrire une application MESOS n'est pas la même chose qu'une expérience familière. Bien que Mesos soit un nouveau projet, grandir très vite.

16. NIFI


Apache NIFI 0.2.0 a été émis, le projet est actuellement à l'étape de recuit de la plate-forme Apache. Apache NIFI est un système de traitement et de distribution de données faciles à utiliser, puissant et fiable. Apache Nifi est conçu pour les flux de données. Il prend en charge les itinéraires de données des indicateurs de haut niveau, la conversion et les systèmes logiques intermédiaires. Apache Nifi est un projet open sourceP Entrez la plate-forme Apache de l'Agence de sécurité nationale (NSA) et ses objectifs de conception sont des flux de données entre les systèmes d'automatisation. Sur la base de son concept de programmation de flux de travail, le NIFI est facile à utiliser, puissant, fiable et hautement configuré. Les deux caractéristiques les plus importantes sont leur puissant interface utilisateur et un bon outil de cravate de données. L'interface utilisateur de la NIFI permet aux utilisateurs d'avoir une compréhension visuelle du navigateur et d'interagir avec des flux de données, plus rapides et sécurisés. Toute sa fonctionnalité d'accès aux données permet aux utilisateurs de voir des objets qui se produisent après les flux de systèmes, la lecture et les étapes visuelles importantes, y compris une grande quantité de modèles complexes, de fourchettes, de familles de la cupidité et d'autres opérations. De plus, NIFI utilise des composants pour augmenter rapidement la fonctionnalité basée sur des flux de données complexes et pour gérer les systèmes de fichiers, y compris FTP, SFTP et HTTP, V.V. Et HDFS est également pris en charge. Le NIFI vient de l'éloge convenu de l'industrie, y compris le PDG de HORTonworks, profitez de la cto et du bord de bord de la CTO.
17. KAFKA

Dans le grand champ de données, Kafka est devenue une norme pratique pour les messages d'enregistrement de libération dispersés. Sa conception permet aux agents de prendre en charge des milliers de clients dans un débit d'informations indiquant le traitement, tout en maintenant la durabilité par le biais de la dispersion. KAFKA consiste à enregistrer un enregistrement sur le système HDFT, car HDFS est un système de stockage distribué, la copie de sauvegarde des données est également protégée par Kafka elle-même. Lorsque les consommateurs veulent lire des messages, Kafka trouve sa compensation dans le journal central et les envoie. Étant donné que l'annonce n'est pas supprimée immédiatement, l'augmentation des informations historiques des consommateurs ou de la transmission ne crée pas une consommation supplémentaire. Kafka a pu envoyer 2 millions de messages par seconde. Bien que le numéro de version numéro de Kafka soit sous-1.0, mais en fait, Kafka est un produit mature et stable utilisé dans une partie du plus grand groupe TMonde.


18. 18.OPENENTENTSDB
OpentsDB est la base de données HBASE basée sur la chronologie. Il est conçu des données pour analyse à partir d'applications mobiles, de périphériques, de périphériques réseau et d'autres périphériques matériels. Il personnalise l'architecture HBASE pour stocker des données de séries chronologiques, conçues pour prendre en charge la synthèse rapide et les besoins minimaux de l'espace de stockage. En utilisant HBASE comme couche de stockage ci-dessous, OpenSSDB est bien supporté par la distribution et la fiabilité du système. Les utilisateurs ne interagissent pas directement avec HBASE; Et le système d'enregistrement de données est géré via la série d'arrière-plan de la série TIME (TSD), qui peut être facilement étendu aux scripts d'application pour connaître les données de traitement à grande vitesse. Il existe certaines connexions préfabriquées pour publier des données sur OpentsDB et le support client de Ruby, Python et d'autres langues. OpenSSDB n'est pas bon dans le traitement des graphiques interactifs, mais peut être intégré à des outils tiers. Si vous avez utilisé HBASE et que vous voulez un moyen simple de ePour stocker des données d'événement, OpenSSDB ne peut que vous adapter.

19. Jupyter


Les cahiers préférés des personnes ont disparu. Jupyter est "Ipython" a dépouillé une partie de indépendante dans la langue d'un paquet séparé. Bien que Jupyter lui-même soit écrit en Python, le système est un module. Vous pouvez maintenant avoir une interface comme son ipython, pratique pour partager le code de votre ordinateur portable, créer des documents et visualiser des données. Au moins 50 langues ont été soutenues, y compris Lisp, R, F #, Perl, Ruby, Scala, V.V. En fait, même si Ipython lui-même n'est qu'un module Python Jupyter. Communication du noyau de langue via RÉPL (lecture, évaluation, boucle d'impression) similaire à NREPL ou à la boue. Je suis très heureux de voir un tel logiciel utile pour obtenir un financement d'organisation à but non lucratif important pour développer davantage, tels que la mise en œuvre parallèle et les applications portables multi-utilisateurs.


20. Zeppelin
Zeppelin est un projet d'incubation Apache. Une machineLes ordinateurs portables basés sur le Web prennent en charge l'analyse de données interactive. Vous pouvez utiliser SQL, SCALA, V.V. Pour mettre en œuvre des documents interactifs, interactifs et interactifs. (Semblables aux ordinateurs portables ipython, vous pouvez écrire du code, noter et partager directement dans votre navigateur). Certains graphiques de base ont été inclus dans Zeppelin. L'aventure n'est pas limitée à la requête SparksQL et à la sortie de Toute langue auxiliaire peut être définie et visualisée.Zeppelin fournit une URL utilisée pour afficher uniquement les fruits de liaison, n'incluez pas le bouton de menu et Zeppelin. De cette façon, vous pouvez facilement l'intégrer comme iframe dans votre site.eppelin n'est pas mature. Je Voulez-vous mettre une démo, mais je ne trouve pas un moyen simple de désactiver "Shell" comme une option exécutable (en d'autres éléments). Cependant, son apparence est meilleure que Ipython Notebooks, Apache Zeppelin est le logiciel de licence Apache2. Ouvrir.


Sujets

Catégories