Écosystème Hadoop.

1 Proposition, il est donc passé de temps libre pour organiser les écosystèmes Hadoop et le résumer, sous la forme d'une table. Le contenu associé est:

Système de fichiers distribués

Modèle de programmation dispersée

Base de données NOQUERY

SQL-ON-HADOP-HADOP
Matériel
Programmation middleware
Calendrier Système
Déploiement du système
Visualize Données

2, Teneur

Système

Dans le système de fichiers distribué, il est d'abord familiarisé avec HDFS d'Apache. Le système de fichiers Distribution Hadoop s'appelle un cluster construit par plusieurs machines et stocke des fichiers de données volumineux. L'inspiration de HDFS provient du système de fichiers Google (GFS). Avant la version de Hadoop 2.x, Namenode est un point d'échec unique. La fonction disponible de Zoo Base résout ce problème HDF et est sauvegardé dans le même cluster en fournissant deux boutons de sauvegarde, à savoir: actif& Amp; StandardBy

2.1. 2 Red Hat Glusterfs

GLUSTERFS est un système de fichiers archivé connecté au réseau d'extension. Glústerfs a été développé à l'origine par GLUSTER, puis le Red Hat a été acheté en 2011. En juin 2012, Red Hat Host a été annoncé en intégration avec le support professionnel et la Red Hat Enterprise Linux Glusterfs. Le système de fichiers de Gluster s'appelle actuellement l'hôte Red Hat.

2.1.3 QFS

QFS est le package logiciel de fichier de fichiers distribué à la source open source pour la carte de la charge de travail de masse. Elle est conçue comme une autre option pour HDFS pour Apache Hadoop pour de grandes grappes de manutention afin de fournir une meilleure performance et une meilleure efficacité. Il utilise la gestion de la mémoire C ++ et fixe. QFS utilise la correction des erreurs Reed-Solomon pour garantir des méthodes d'accès aux données fiables. Le cryptage de semences-Solomon est largement utilisé dans de grands systèmes de stockage pour surmonter les grappes liées aux erreurs de communication. Au lieu d'économiser tChaque fichier ou similaire à HDFS, plus de 2 fois ou plus, QFS ne nécessite que 1,5 fois la capacité d'origine car elle est stockée sur des neuf disques différents.

Système de fichiers CEPH

CEPH est une plate-forme de stockage de logiciels libres, conçue comme objet, bloc, à partir d'un magasin d'enregistrement enregistré dans le cluster. Son objectif principal est que l'applage ne distribue pas complètement, s'étendant horizontalement à la capacité PB, haute performance et haute disponibilité de nombreuses charges de travail.

Système de fichiers de lumière 2.1.5

La convoitise a été développée à partir de linux et de grappes, pour résoudre des problèmes de stockage de systèmes de fichiers volumineux. Nouvellement conçu. Il peut prendre en charge le bouton 1W, la capacité de stockage PB et la vitesse de transmission de 100 Go / s. Lustre est un système de stockage à base d'objet qui réduit l'inodode des serveurs de métadonnées. Il a effectivement amené la plage de données à chaque cible de stockage, ce qui permet de coïncider avec la hauteur de l'IO. Ministère de l'écologieLa tête de Lustre prend en charge une petite lecture et écrire de gros documents; Et lire et écrire de gros fichiers dans des particules Linux. De plus, Lustre est un système de fichiers partagé transparent, les informations de localisation des données de bande ne peuvent pas être parfaitement exposées. Il est donc nécessaire de réaliser beaucoup de travail.

Le contenu du système de fichiers de distribution est décrit ici; Autres systèmes de fichiers distribués, tels que: Alluxio, Gridgain et Xteemfs [1. Site officiel, 2.blink sur Xteemfs, 3 .park Xteemfs] Attendez quelques détails supplémentaires, vous pouvez aller vous-même.

2.2 Modèle de programmation programmable

2.2.1 Apache Ignite

APCHE ILGHCHED Cadre arqué est une plate-forme de négociation et de diffusion et de performance et dispersant pour traiter des ensembles de données à grande échelle, une mémoire basée sur la mémoire de disque plus traditionnelle. Performances de la technologie plus élevées Tout en fournit des données de mémoire de données haute performance, des données de disperse, une gestion de l'organisation de données, avec différentes sources de données.

Il contient une valeur de couche / dispersion stockée dans la mémoire, SQL, MapReduce EXECUTION Capacités et des structures de données distribuées, des requêtes continues, des messages et des systèmes continus à SUE. Hadoop et Spark ont intégré. Ignite Compiles Java, fournit les interfaces API .NET et C ++.

2.2.2 Apache Mapreduce

Ce n'est pas familier, il s'agit d'un modèle de programmation classique pour traiter simultanément sur, attribué une grande distribution de données. La version actuelle compilait le cadre de fibre. Ici n'est pas décrit ici.

2.2.3 Apache Spark

Ce modèle de programmation, les personnes ne seront pas étranges, maintenant la scène d'application de Spark et le niveau élevé de communauté d'activité. Capacité de mise en œuvre rapide, interface d'API de programmation riche, ce qui en fait un support.

Apache Storm

Les camarades de classe effectuent un traitement de données de débit en temps réel ne seront pas familiers, peut associer une variété de messages middleware (commeKafka, MQ, et ainsi de suite.).

2.2.5 FLINK APACHE

Apache FLINK est une plate-forme d'informatique open source pour gérer les flux de données distribués et le traitement des données par lots, il est possible de fournir deux types d'applications. qui supporte le traitement du flux et le traitement par lots basé sur le même chiffre d'exécution. Les solutions d'informatique open source existantes utiliseront le traitement des lignes et les lots sous la forme de deux types d'applications différents, car le SLA qu'ils fournissent complètement différent: le traitement de flux prend souvent en charge une faible latence, une fois les garanties et le traitement par lots nécessaires pour faciliter le traitement efficace. généralement fourni avec deux ensembles de méthodes de déploiement ou par un cadre open source distinct. Un plan de traitement.

Exemple: Schéma open source a fait une série avec MapReduce, Tez, Crunch, Spark et obtenu Samza, Storm. FLINK est complètement différent des solutions traditionnelles lors du déploiement de la manipulation de flux et de masse, et il examine le processus de traitement de flux et la masse d'une autre perspective, et les deux sont systématiquesLa plupart des revenus sont un support complet, ce qui est un moyen de gérer le flux lorsque le flux de données d'entrée est sans limite; Les séries sont traitées comme un fil spécial, mais son flux de données d'entrée est déterminé à être infini. Basé sur la même fluide d'exécution (liquide), la série de traitement de flux et d'API est fournie et deux API constituent également la base du déploiement supérieur au processus d'écoulement, le cadre d'application de type lot.

2.3 Base de données NOSQL

2.3.1 Modèle de données de colonne

2.3.1.1 Apache Hbase

Inspiré de la bigtable de Google. La dispersion de la base de données n'est pas liée. Un grand nombre d'extensions étendues en lecture et écriture en temps réel.

2.3.1.2 Apache Cassandra

Apache Cassandra est un ensemble de systèmes de stockage de clés de distribution open source. Il a été développé à l'origine par Facebook pour stocker des données spéciales. Cassandra n'est pas la base de données, c'est une base de données KDes hanches importantes hybrides, similaires à la bigtable de Google. Le modèle de données de Cassandra est un modèle à quatre dimensions ou en cinq dimensions basé sur la famille de colonnes. Il s'appuie sur la structure de données et les caractéristiques fonctionnelles du générateur d'Amazon et de Bigtable de Google, stockées dans les mémoires et la srsttable. Avant que les données d'enregistrement de Cassandra, vous devez enregistrer le journal (COMTLLOG), puis les données commencent à graver sur MEMTABLE correspondant à la famille de colonnes, MEMTABLE est une structure de mémoire dans laquelle les données sont triées dans la clé, lors de la rencontre d'une certaine condition, alors MEMTABLE Les lots de données sont rafraîchis sur le disque et sont enregistrés comme sstable.

KUDU est une liste des outils d'inscription à la source ouverte de Cloudra, avec certaines caractéristiques:

] C ++ Développement linguistique

Charger le traitement à haute efficacité OLAP

Intégrer d'autres composants avec MR, Étincelle et Écosystème Hadoop Intégré à Cloudera Impala

Atteindre de bonnes performances

Haute disponibilité, utilisez des protocoles de radeau afin de garantir un modèle de stockage structuré élevé

2.3. 2 Modèles de données de document

2.3.2.1 Mongodb

Système de base de données orienté de la base de données. Cela fait partie de la famille NOQUERY du système de base de données. Les données de structure de stockage MongoDB sont stockées comme format JSON.

2.3.3 Modèle de données Valeur de verrouillage

2.3.3.1 Database ReDIS

Redis est une source ouverte écrite dans la langue ansi, Le support réseau peut être basé sur la base de données LAX, la valeur clé et l'API.

2.4 SQL-On-Hadoop

2.4.1 Hive Apache

Un entrepôt de données développé par Facebook. Données synthétiques, requêtes et analyse. Fournir une classe SQL Langue: HiveQL

2.4.2 Trafodion Apache Trafodion est une base de données HBase Hadoop / HBase, source entièrement ouverte. Trafodion prend pleinement en charge ANSI SQL et fournit une garantie de négociation acide. Et la base de données traditionnelle traditionnelle avec trafodion utilise l'expansion latérale de Hadoop ci-dessous, afin de fournir une évolutivité extrêmement élevée. Les bases de données traditionnelles, telles que MySQL, sont difficiles à traiter lorsque la quantité de données atteint P. trafodion peut utiliser une évolutivité HBASE, qui peut augmenter la capacité informatique et le stockage en augmentant la machine. Propriétaires de Linux normaux, soutenant ainsi les grandes applications de données.

L'adresse liée est liée, comme indiqué ci-dessous:

1, Apache Trafodion Home

2 , Apache trafodion wiki

2.4.3 Forage Apache

Le forage est open source d'Apache, outil de requête SQL pour explorer de grandes données. Dans les grandes applications de données, lorsqu'elles sont confrontées à des données structurées et à des données rapides, elle peut être compatible et haute performance, et fournit également une langue de requête.U Les normes connaissent l'industrie, à savoir: l'écosystème ANSI SQL. Le forage offre plug-and-play, dans la ruche, HBASE, S3 et d'autres installations de stockage seront intégrées à tout moment.

L'adresse liée est liée, comme indiqué ci-dessous:

1, Home Home Apache

2.4.4 Cloudera Impala

Semblable à un grand moteur de requête de données, en fonction de l'environnement CDH.

Adresse indiquée ci-dessous: 1, Cloudera Impala Home

2, Impala sur Github

2.4.5 Apache Kylin Kylin est un outil d'analyse de données distribuée à la source ouverte fournie par eBay. Hadoop GRAND Data Set OLAP /

Adresses liées, comme indiqué ci-dessous:

1, Apache Kylin Home

De plus, il y a aussi [Apache Tajo], [Apache Phoenix], etc., ici n'est pas répertorié ici.

2.5 Collecte de données

2.5.1 Apache Flaume

PLUME est un service réparti, fiable et fiable, collecte efficace, synthétiser et déplacer des données de journal de grande taille . Il possède une architecture simple et flexible basée sur des flux de données en streaming en ligne. Capacités et bonne tolérance aux pannes, ainsi que la fiabilité et les mécanismes de conversion et de récupération multi-erreurs. Il utilise un modèle de données étendu simple et permet aux applications d'analyse en ligne.

Les adresses liées sont liées, comme indiqué ci-dessous:

1, Apache FLÀ HOME

2.5.2 Apache SQOP

Outils pour mettre en œuvre des interactions de données à partir de HDFS aux SGBDM. Semblable à Flume.

Les adresses liées sont liées, comme indiqué ci-dessous:

1, projet SQOOOP Apache

]

2.5.3 Apache Kafka

Publication dispersée- Enregistrez le système de messagerie pour gérer un trafic important de données. Kafka est une file d'attente de messages développé par LinkedIn. Il est possible d'installations de stockage de transplantation tels que HDFS peut être utilisé par les tempêtes, Spark.

L'adresse de lien est lié, comme indiqué ci - dessous:

1, Apache Kafka

2, Kafka sur Github

2.5.4 Apache Nifi

Apache Nifi est une open source contribué à la plate - forme Apache de l'US national Security Agency (NSA), le projet a été créé avec succès dans l' un des Apache meilleurs programmes. L'Apache Nifi son objectif de conception est le flux de données entre les systèmes d'automatisation. Sur la base de son concept de programmation de flux de travail, a Nifi facile à utiliser, les caractéristiques hautement disponibles et hautement configurées. En particulier deux principales caractéristiques sont les suivantes: l'interface utilisateur puissante et de bonnes données des outils de sauvegarde. L'interface utilisateur de Nifi permet aux utilisateurs de comprendre l'intuition, rapidement et interactivitéInteragir rapidement et en toute sécurité avec les flux de données dans le navigateur. Toute sa fonctionnalité d'accès aux données permet aux utilisateurs de voir des objets qui se produisent avant le flux de système, la lecture et les étapes clés visuelles, y compris une grande quantité de modèles complexes, de fourchettes, de participation et d'autres opérations. De plus, NIFI utilise des composants pour augmenter rapidement la fonctionnalité, les flux de données non réalisés, l'extraction et le traitement des systèmes de fichiers, y compris FTP, SFTP et HTTP, V.V., prend également en charge les HDF.

En outre, des kits tels que Facebook Scribe Facebook, Apache Chukwa, Netflix Suro, Apache Samza, Cloudera Morphline, HIHO n'est pas introduit, les gens peuvent comprendre le mal c'est-à-dire. Collecter des ensembles de suites.

2.6 Logiciel intermédiaire de service de programmation

2.6.1 Thrift

Effectue un cadre logiciel à effectuer peut développer et traverser des services linguistiques. Il combine un logiciel et un outil puissantCréez un code puissant pour construire des connexions transparentes et des langages de programmation efficaces tels que C ++, Java, Python, Ruby. Initialement, il a mis au point une communication RPC entre différentes langues dans le système, puis Facebook a contribué à Apache, actuellement l'un des principaux programmes d'Apache.

2.6.2 Apache Zookeeper

Cadre de service de dispersion de zoovePer est un projet supplémentaire d'Apache Hadoop, principalement utilisé pour résoudre un certain nombre de problèmes de gestion des données qu'il est Common dans les applications dispersées, telles que: Service de dénomination unifié, Service de synchronisation d'état, Gestion des clusters, Gestion des applications, etc.

Apache Avro est un sous-projet dans Hadoop et un projet indépendant dans Apache Avro est un logiciel intermédiaire basé sur la transmission de données binaires. Dans l'autre projet OOP, tel que HBASE, la transmission des données du serveur de la HIVE utilise également cet outil. Avro est unLe système de série de données convertit la structure de données ou les objets dans la facilitation des formats pour le stockage ou la transmission. Les conceptions d'avreurs sont utilisées pour prendre en charge les applications en profondeur de données, adaptées au stockage et à l'échange de données à grande échelle à distance ou localement. Il existe une fonctionnalité:

Type de structure de données riche

Formulaires de données binaires à compression rapide, sauvegardez la capacité de stockage de données et la largeur de bande de transfert de réseau après le matériau de fichier d'engrais

Le fichier contenant pour stocker des données continues Peut déployer le processus d'appel RPC RPC Fonction de liaison de langue simple

Système de planification

. 2.7.1 Apache Ozie

La tâche est exécutée dans Hadoop nécessite parfois plusieurs connexions son travail ensemble dans le but de réaliser. Dans l'écosystème Hadoop, Oozie peut combiner plusieurs emplois MR dans une unité de travail logique pour compléter une grande tâche.que. Oozie est une application Web Java qui fonctionne dans le servlet Java contenant (c.-à-d. Tomcat) et utilise la base de données pour stocker le contenu:
Définition du flux de travail

exécute actuellement l'exemple de processus fonctionnant, y compris l'expression et la variable
.

. . ] . . Oozie Workflow est placé dans un ensemble Commentaires (comme Hadoop Mr emplois, Cong, le fait que les porcs, etc.) dans DAG dépendent du contrôle, nommant l'application de l'action. Commande. 2.7.2 LinkedIn Azkaban Hadoop Workflow Management. Fournissez une interface d'interface utilisateur Web conviviale pour la planification de travail de masse (heure ou opportune). 2.7.3 Apache FalcoN Apache Falcon est un Hadoop, une nouvelle plate-forme de traitement de la gestion de données, des mouvements de données conçus, de la coordination des tuyaux de données, de la gestion du cycle de vie et de l'exploration de l'évolution, que ce soit. Il utilise les utilisateurs finaux pour télécharger rapidement des données et des tâches de traitement et de gestion liées au cluster Hadoop. Dans Apach.In E Falcon, le point final de l'infrastructure, des ensembles de données et des règles de traitement sont déclarés. Cette configuration de déclaration identifie clairement les dépendances entre entités. Ceci est également une caractéristique de la plate-forme. Il n'entre que des dépendances, mais n'effectue aucun travail lourd, toutes les fonctions et les exigences de gestion du statut de processus de travail sont exploités pour fonctionner. 2.8 Déploiement du système 2.8.1 Apache Ambari Utilisé pour créer, gérer, Les outils de surveillance des clusters Hadoop, qui peuvent être facilement installés, le débogage des clusters Hadoop, les composants de la plate-forme pris en charge sont également davantage, tels que des étincelles et des tempêtes et leAutres modèles informatiques et la plate-forme de planification des ressources en fibre, V.V., vous pouvez facilement déployer la direction via Ambari. 2.8.2 CDH Les produits de Clouadra, similaires à Ambari, sont utilisés pour créer, gérer et surveiller des grappes Hadoop. 2.9 Intuitive 2.9.1 Apache Zeppelin Vous pouvez créer de belles données, utiliser SQL, Scala ou d'autres types. Il dispose des caractéristiques suivantes: Collecte de données Découvrez les données Analyse des données Visualisation et intégration des données ] Le logiciel intermédiaire actuel est pris en charge: Spark, FLINK, Cassandra, Phoenix, Kylin et al 3, Résumé Écosystème Hadoop Il est très important et le seul mentionné ci-dessus de son cercle écotrope, l'image vous montre la carte correspondante de ce blog de contenu associé, comme indiqué sur l'image ci-dessous: 4, se terminant par Ce blog est partagé ici, si tout le monde apprenne le processus d'apprentissage si vous avez des questions, vous pouvez discuter ou envoyer un courrier électronique à moi, je ferai de mon mieux pour répondre à votre question., Avec monarque!

Sujets

Les données

Catégories

Plate-forme intermédiaire de données