1 Proposition, il est donc passé de temps libre pour organiser les écosystèmes Hadoop et le résumer, sous la forme d'une table. Le contenu associé est:
Système de fichiers distribués
Modèle de programmation disperséeBase de données NOQUERY
SQL-ON-HADOP-HADOPMatériel
Programmation middleware
Calendrier Système
Déploiement du système
Visualize Données
Système
Dans le système de fichiers distribué, il est d'abord familiarisé avec HDFS d'Apache. Le système de fichiers Distribution Hadoop s'appelle un cluster construit par plusieurs machines et stocke des fichiers de données volumineux. L'inspiration de HDFS provient du système de fichiers Google (GFS). Avant la version de Hadoop 2.x, Namenode est un point d'échec unique. La fonction disponible de Zoo Base résout ce problème HDF et est sauvegardé dans le même cluster en fournissant deux boutons de sauvegarde, à savoir: actif& Amp; StandardBy
2.1. 2 Red Hat Glusterfs
2.1.3 QFS
QFS est le package logiciel de fichier de fichiers distribué à la source open source pour la carte de la charge de travail de masse. Elle est conçue comme une autre option pour HDFS pour Apache Hadoop pour de grandes grappes de manutention afin de fournir une meilleure performance et une meilleure efficacité. Il utilise la gestion de la mémoire C ++ et fixe. QFS utilise la correction des erreurs Reed-Solomon pour garantir des méthodes d'accès aux données fiables. Le cryptage de semences-Solomon est largement utilisé dans de grands systèmes de stockage pour surmonter les grappes liées aux erreurs de communication. Au lieu d'économiser tChaque fichier ou similaire à HDFS, plus de 2 fois ou plus, QFS ne nécessite que 1,5 fois la capacité d'origine car elle est stockée sur des neuf disques différents.
Système de fichiers CEPH
CEPH est une plate-forme de stockage de logiciels libres, conçue comme objet, bloc, à partir d'un magasin d'enregistrement enregistré dans le cluster. Son objectif principal est que l'applage ne distribue pas complètement, s'étendant horizontalement à la capacité PB, haute performance et haute disponibilité de nombreuses charges de travail.
Système de fichiers de lumière 2.1.5
Le contenu du système de fichiers de distribution est décrit ici; Autres systèmes de fichiers distribués, tels que: Alluxio, Gridgain et Xteemfs [1. Site officiel, 2.blink sur Xteemfs, 3 .park Xteemfs] Attendez quelques détails supplémentaires, vous pouvez aller vous-même.
2.2 Modèle de programmation programmable
2.2.1 Apache Ignite
APCHE ILGHCHED Cadre arqué est une plate-forme de négociation et de diffusion et de performance et dispersant pour traiter des ensembles de données à grande échelle, une mémoire basée sur la mémoire de disque plus traditionnelle. Performances de la technologie plus élevées Tout en fournit des données de mémoire de données haute performance, des données de disperse, une gestion de l'organisation de données, avec différentes sources de données.
2.2.2 Apache Mapreduce
Ce n'est pas familier, il s'agit d'un modèle de programmation classique pour traiter simultanément sur, attribué une grande distribution de données. La version actuelle compilait le cadre de fibre. Ici n'est pas décrit ici.
2.2.3 Apache SparkCe modèle de programmation, les personnes ne seront pas étranges, maintenant la scène d'application de Spark et le niveau élevé de communauté d'activité. Capacité de mise en œuvre rapide, interface d'API de programmation riche, ce qui en fait un support.
Apache Storm
Les camarades de classe effectuent un traitement de données de débit en temps réel ne seront pas familiers, peut associer une variété de messages middleware (commeKafka, MQ, et ainsi de suite.).
2.2.5 FLINK APACHE
Apache FLINK est une plate-forme d'informatique open source pour gérer les flux de données distribués et le traitement des données par lots, il est possible de fournir deux types d'applications. qui supporte le traitement du flux et le traitement par lots basé sur le même chiffre d'exécution. Les solutions d'informatique open source existantes utiliseront le traitement des lignes et les lots sous la forme de deux types d'applications différents, car le SLA qu'ils fournissent complètement différent: le traitement de flux prend souvent en charge une faible latence, une fois les garanties et le traitement par lots nécessaires pour faciliter le traitement efficace. généralement fourni avec deux ensembles de méthodes de déploiement ou par un cadre open source distinct. Un plan de traitement.
Exemple: Schéma open source a fait une série avec MapReduce, Tez, Crunch, Spark et obtenu Samza, Storm. FLINK est complètement différent des solutions traditionnelles lors du déploiement de la manipulation de flux et de masse, et il examine le processus de traitement de flux et la masse d'une autre perspective, et les deux sont systématiquesLa plupart des revenus sont un support complet, ce qui est un moyen de gérer le flux lorsque le flux de données d'entrée est sans limite; Les séries sont traitées comme un fil spécial, mais son flux de données d'entrée est déterminé à être infini. Basé sur la même fluide d'exécution (liquide), la série de traitement de flux et d'API est fournie et deux API constituent également la base du déploiement supérieur au processus d'écoulement, le cadre d'application de type lot.
2.3 Base de données NOSQL
2.3.1 Modèle de données de colonne
2.3.1.1 Apache Hbase
Inspiré de la bigtable de Google. La dispersion de la base de données n'est pas liée. Un grand nombre d'extensions étendues en lecture et écriture en temps réel.
Apache Cassandra est un ensemble de systèmes de stockage de clés de distribution open source. Il a été développé à l'origine par Facebook pour stocker des données spéciales. Cassandra n'est pas la base de données, c'est une base de données KDes hanches importantes hybrides, similaires à la bigtable de Google. Le modèle de données de Cassandra est un modèle à quatre dimensions ou en cinq dimensions basé sur la famille de colonnes. Il s'appuie sur la structure de données et les caractéristiques fonctionnelles du générateur d'Amazon et de Bigtable de Google, stockées dans les mémoires et la srsttable. Avant que les données d'enregistrement de Cassandra, vous devez enregistrer le journal (COMTLLOG), puis les données commencent à graver sur MEMTABLE correspondant à la famille de colonnes, MEMTABLE est une structure de mémoire dans laquelle les données sont triées dans la clé, lors de la rencontre d'une certaine condition, alors MEMTABLE Les lots de données sont rafraîchis sur le disque et sont enregistrés comme sstable.
KUDU est une liste des outils d'inscription à la source ouverte de Cloudra, avec certaines caractéristiques:
] C ++ Développement linguistique
Charger le traitement à haute efficacité OLAPIntégrer d'autres composants avec MR, Étincelle et Écosystème Hadoop Intégré à Cloudera Impala
Atteindre de bonnes performances
Haute disponibilité, utilisez des protocoles de radeau afin de garantir un modèle de stockage structuré élevé
2.3. 2 Modèles de données de document
2.3.2.1 Mongodb
Système de base de données orienté de la base de données. Cela fait partie de la famille NOQUERY du système de base de données. Les données de structure de stockage MongoDB sont stockées comme format JSON.
2.3.3 Modèle de données Valeur de verrouillage
2.3.3.1 Database ReDIS
2.4 SQL-On-Hadoop
2.4.1 Hive Apache
Un entrepôt de données développé par Facebook. Données synthétiques, requêtes et analyse. Fournir une classe SQL Langue: HiveQL
2.4.2 Trafodion Apache Trafodion est une base de données HBase Hadoop / HBase, source entièrement ouverte. Trafodion prend pleinement en charge ANSI SQL et fournit une garantie de négociation acide. Et la base de données traditionnelle traditionnelle avec trafodion utilise l'expansion latérale de Hadoop ci-dessous, afin de fournir une évolutivité extrêmement élevée. Les bases de données traditionnelles, telles que MySQL, sont difficiles à traiter lorsque la quantité de données atteint P. trafodion peut utiliser une évolutivité HBASE, qui peut augmenter la capacité informatique et le stockage en augmentant la machine. Propriétaires de Linux normaux, soutenant ainsi les grandes applications de données.
L'adresse liée est liée, comme indiqué ci-dessous:
1, Apache Trafodion Home
2.4.3 Forage Apache
Le forage est open source d'Apache, outil de requête SQL pour explorer de grandes données. Dans les grandes applications de données, lorsqu'elles sont confrontées à des données structurées et à des données rapides, elle peut être compatible et haute performance, et fournit également une langue de requête.U Les normes connaissent l'industrie, à savoir: l'écosystème ANSI SQL. Le forage offre plug-and-play, dans la ruche, HBASE, S3 et d'autres installations de stockage seront intégrées à tout moment.
L'adresse liée est liée, comme indiqué ci-dessous:
2.4.4 Cloudera Impala
Semblable à un grand moteur de requête de données, en fonction de l'environnement CDH.
Adresse indiquée ci-dessous: 1, Cloudera Impala Home
2, Impala sur Github
.
Adresses liées, comme indiqué ci-dessous:
1, Apache Kylin Home
De plus, il y a aussi [Apache Tajo], [Apache Phoenix], etc., ici n'est pas répertorié ici.
2.5 Collecte de données
2.5.1 Apache Flaume
PLUME est un service réparti, fiable et fiable, collecte efficace, synthétiser et déplacer des données de journal de grande taille . Il possède une architecture simple et flexible basée sur des flux de données en streaming en ligne. Capacités et bonne tolérance aux pannes, ainsi que la fiabilité et les mécanismes de conversion et de récupération multi-erreurs. Il utilise un modèle de données étendu simple et permet aux applications d'analyse en ligne.
Les adresses liées sont liées, comme indiqué ci-dessous:
1, Apache FLÀ HOME
Outils pour mettre en œuvre des interactions de données à partir de HDFS aux SGBDM. Semblable à Flume.
Les adresses liées sont liées, comme indiqué ci-dessous:
1, projet SQOOOP Apache
]
2.5.3 Apache Kafka
Publication dispersée- Enregistrez le système de messagerie pour gérer un trafic important de données. Kafka est une file d'attente de messages développé par LinkedIn. Il est possible d'installations de stockage de transplantation tels que HDFS peut être utilisé par les tempêtes, Spark.
L'adresse de lien est lié, comme indiqué ci - dessous:
1, Apache Kafka
2, Kafka sur Github
2.5.4 Apache NifiApache Nifi est une open source contribué à la plate - forme Apache de l'US national Security Agency (NSA), le projet a été créé avec succès dans l' un des Apache meilleurs programmes. L'Apache Nifi son objectif de conception est le flux de données entre les systèmes d'automatisation. Sur la base de son concept de programmation de flux de travail, a Nifi facile à utiliser, les caractéristiques hautement disponibles et hautement configurées. En particulier deux principales caractéristiques sont les suivantes: l'interface utilisateur puissante et de bonnes données des outils de sauvegarde. L'interface utilisateur de Nifi permet aux utilisateurs de comprendre l'intuition, rapidement et interactivitéInteragir rapidement et en toute sécurité avec les flux de données dans le navigateur. Toute sa fonctionnalité d'accès aux données permet aux utilisateurs de voir des objets qui se produisent avant le flux de système, la lecture et les étapes clés visuelles, y compris une grande quantité de modèles complexes, de fourchettes, de participation et d'autres opérations. De plus, NIFI utilise des composants pour augmenter rapidement la fonctionnalité, les flux de données non réalisés, l'extraction et le traitement des systèmes de fichiers, y compris FTP, SFTP et HTTP, V.V., prend également en charge les HDF.
2.6 Logiciel intermédiaire de service de programmation
2.6.1 Thrift
Effectue un cadre logiciel à effectuer peut développer et traverser des services linguistiques. Il combine un logiciel et un outil puissantCréez un code puissant pour construire des connexions transparentes et des langages de programmation efficaces tels que C ++, Java, Python, Ruby. Initialement, il a mis au point une communication RPC entre différentes langues dans le système, puis Facebook a contribué à Apache, actuellement l'un des principaux programmes d'Apache.
Cadre de service de dispersion de zoovePer est un projet supplémentaire d'Apache Hadoop, principalement utilisé pour résoudre un certain nombre de problèmes de gestion des données qu'il est Common dans les applications dispersées, telles que: Service de dénomination unifié, Service de synchronisation d'état, Gestion des clusters, Gestion des applications, etc.
Apache Avro est un sous-projet dans Hadoop et un projet indépendant dans Apache Avro est un logiciel intermédiaire basé sur la transmission de données binaires. Dans l'autre projet OOP, tel que HBASE, la transmission des données du serveur de la HIVE utilise également cet outil. Avro est unLe système de série de données convertit la structure de données ou les objets dans la facilitation des formats pour le stockage ou la transmission. Les conceptions d'avreurs sont utilisées pour prendre en charge les applications en profondeur de données, adaptées au stockage et à l'échange de données à grande échelle à distance ou localement. Il existe une fonctionnalité:
Type de structure de données riche
Le fichier contenant pour stocker des données continues Peut déployer le processus d'appel RPC RPC Fonction de liaison de langue simple
Système de planification
. 2.7.1 Apache Ozie
La tâche est exécutée dans Hadoop nécessite parfois plusieurs connexions son travail ensemble dans le but de réaliser. Dans l'écosystème Hadoop, Oozie peut combiner plusieurs emplois MR dans une unité de travail logique pour compléter une grande tâche.que. Oozie est une application Web Java qui fonctionne dans le servlet Java contenant (c.-à-d. Tomcat) et utilise la base de données pour stocker le contenu:
Définition du flux de travail
exécute actuellement l'exemple de processus fonctionnant, y compris l'expression et la variable
.
. . ] . . Oozie Workflow est placé dans un ensemble Commentaires (comme Hadoop Mr emplois, Cong, le fait que les porcs, etc.) dans DAG dépendent du contrôle, nommant l'application de l'action. Commande. 2.7.2 LinkedIn Azkaban Hadoop Workflow Management. Fournissez une interface d'interface utilisateur Web conviviale pour la planification de travail de masse (heure ou opportune). 2.7.3 Apache FalcoN Apache Falcon est un Hadoop, une nouvelle plate-forme de traitement de la gestion de données, des mouvements de données conçus, de la coordination des tuyaux de données, de la gestion du cycle de vie et de l'exploration de l'évolution, que ce soit. Il utilise les utilisateurs finaux pour télécharger rapidement des données et des tâches de traitement et de gestion liées au cluster Hadoop. Dans Apach.In E Falcon, le point final de l'infrastructure, des ensembles de données et des règles de traitement sont déclarés. Cette configuration de déclaration identifie clairement les dépendances entre entités. Ceci est également une caractéristique de la plate-forme. Il n'entre que des dépendances, mais n'effectue aucun travail lourd, toutes les fonctions et les exigences de gestion du statut de processus de travail sont exploités pour fonctionner. 2.8 Déploiement du système 2.8.1 Apache Ambari Utilisé pour créer, gérer, Les outils de surveillance des clusters Hadoop, qui peuvent être facilement installés, le débogage des clusters Hadoop, les composants de la plate-forme pris en charge sont également davantage, tels que des étincelles et des tempêtes et leAutres modèles informatiques et la plate-forme de planification des ressources en fibre, V.V., vous pouvez facilement déployer la direction via Ambari. 2.8.2 CDH Les produits de Clouadra, similaires à Ambari, sont utilisés pour créer, gérer et surveiller des grappes Hadoop. 2.9 Intuitive 2.9.1 Apache Zeppelin Vous pouvez créer de belles données, utiliser SQL, Scala ou d'autres types. Il dispose des caractéristiques suivantes: Collecte de données Découvrez les données Analyse des données Visualisation et intégration des données ] Le logiciel intermédiaire actuel est pris en charge: Spark, FLINK, Cassandra, Phoenix, Kylin et al 3, Résumé Écosystème Hadoop Il est très important et le seul mentionné ci-dessus de son cercle écotrope, l'image vous montre la carte correspondante de ce blog de contenu associé, comme indiqué sur l'image ci-dessous: 4, se terminant par Ce blog est partagé ici, si tout le monde apprenne le processus d'apprentissage si vous avez des questions, vous pouvez discuter ou envoyer un courrier électronique à moi, je ferai de mon mieux pour répondre à votre question., Avec monarque!