Apache Atlas | Cadre de gestion des données

Apache Atlas : Apache Atlas est un projet open source créé par la communauté Hadoop pour résoudre la gouvernance des métadonnées du système Thai Hadoop, qui est le cluster Hadoop Fournit des capacités de base de la gestion des métadonnées, y compris des catégories de données, des politiques centralisées, de la gestion du sang de données, de la sécurité et du cycle de vie.

LinkedIn DuThows

: Dans lequel il existe une société LinkedIn pour explorer les données internes de l'entreprise, les ensembles de données de suivi, voir la circulation des différents instruments et services internes et des outils et des outils sont développés pour détecter et gérer Grandes données. Il recueille des métadonnées de différents systèmes de sources et de normalisation et de modèles, effectuant ainsi une analyse sanguine en tant que magasin de métadonnées.

LinkedIn DataHub dans lequel le projet a été ré-sélectionné en 2018 en tant que projet Daulhub.

: Atlas a été initialement développé par HortonWorks, eUtilisé pour gérer les métadonnées de projet Hadoop, il est conçu pour devenir un cadre d'administration des données. Après cela, j'ai ouvert la source à la trappe de la communauté Apache et j'ai maintenant le développement du développement de l'Aetna, Merck, Target, SAS, IBM et d'autres sociétés. La plupart des fabricants chinois choisissent d'utiliser des cartes secondaires ou de développement.

LinkedIn Duthows & Amp; DataFub Open Source de LinkedIn et est principalement utilisé dans LinkedIn. Les applications moins externes et les cas d'application associés ne sont pas vus. Présentation fonctionnelle

Alache Atlas
1) Afficher les données

2) Voir la dépendance du sang entre les écoles et les écoles de la table des entrepôts de données

. :

1) Voir la dépendance du sang entre les tables et les tableaux dans l'entrepôt de données

2) Voir les données et les aveugles en fonction de

3) TracerMétadonnées de presse

1) Recherche de métadonnées

2) Regarder des métadonnées

3) Modifier les métadonnées

4) Voir différentes données et dépendances

Architecture

Alache Atlas

Source de métasource

: Actuellement, Atlas soutient l'extraction et la gestion des métadonnées de la source suivante: HBASE, HIVE, SQOP, Storm, Kafka : En outre, les utilisateurs peuvent également choisir d'utiliser une interface de messagerie basée sur Kafka et d'intégrer Atlas

Exportation / exportation (exportation / exportation): Le composant d'acquisition permet aux métadonnées extravagantes vont à Atlas. De même, le composant "exportation" ouvrira les changements de métadonnées détectés par ATLAS en tant qu'événement.

Type System

: Les utilisateurs définissent le modèle de l'objet de métadonnées afin qu'ils gèrent. Le type de système est appelé une version "type" de"Entités", indiquant des objets de métadonnées gérés.

Graph : Atlas gère des objets de métadonnées à l'aide du modèle graphique.

TITAN : Actuellement, Atlas utilise la base de données Titan Graphique pour stocker des objets de métadonnées

Hbase pour stocker des métadonnées

IndexStore : Utilisez SOLR pour construire l'index

API : Toutes les fonctionnalités de l'Atlas peuvent être fournies pour connecter les utilisateurs de pousses via le repos API, permettant ainsi de créer, de mettre à jour et de supprimer des types et des entités. C'est également la principale méthode d'interrogation et de découverte des types et des entités Gestion Atlas.

Atlas Admin UI : Ce composant est une application Web qui permet une administration de données et des scientifiques d'explorer et d'annoter des métadonnées. Le gestionnaire UI fournit des interfaces de recherche et des langues de requête de classe SQL peuvent être utilisées pour interroger les types de métadonnées gérées et les objetspar atlas.

Politique basée sur la carte Module de gestion de droite. : Classification des entreprises : Classification des entreprises

LinkedIn DuThows :

Disponible dans cette extraction de support, télécharger (ETL) dans Votre propre bibliothèque de répétition de HDFS, Teradata, Oracle, Hive Hole, Recherche élastique, Druid et Azkaban Data Sets, Oozie Emplois. Les systèmes source peuvent être divisés en systèmes de source de données et en systèmes de travail.

Système de source de la couche de données: Obtenez la ruche à titre d'exemple, dans lequel extraire des métadonnées de MySQL METABASE et de stockage dans leur propre magasin de métadonnées, peut enfin voir les informations sur les métadonnées dans Vushound, telles que des bases de données, telles que des bases de données, telles que des bases de données, telles que des bases de données, telles que Bases de données, etc. En cela, il est impossible de prendre directement le sang des données et du sang des données définies dans lesquelles l'analyse des activités pertinentes.

Système source de classe d'emploi: Obtenez Azkaban à titre d'exemple, supposonsC'est dont les informations sur la tâche peuvent être reçues de la métabase Azkaban et obtiennent des opérations réelles à partir du travail de la revue de nid d'abeille ou de porcs et forment le sang de métadonnées et de ces données de journal.

UI Web, les composants Web avant fournissent des fonctions de requête visuelle. Fournissez une interface utilisateur des métadonnées d'affichage, y compris deux caractéristiques de la fonction de données et de flux. Le point final restant agit en tant que service arrière, fournissant principalement des interfaces API et deux fonctions pour effectuer des tâches ETL. DataHub : DataHub fournit un appel API direct ou sous la forme d'un flux de Kafka pour effectuer des métadonnées. Les métadonnées sont acquises à partir de Kafka et le générateur de métadonnées devrait créer un événement de changement de métadonnées normalisé (MCE). DataHub a résumé des systèmes de données de base supplémentaires à travers un ensemble d'objets d'accès de données universelles (DAOS), tels que les valeurs de clé de couteau, les requêtes de couteaux et des tonnesFaire un couteau. Evénement d'audit de données Extram (Mae) sera automatiquement publié par toute activité mise à jour de la valeur de la clé de couteau. Cinq, comparaison 1) L'atlas est plus lisse dans lequel l'analyse sanguine et la surveillance au niveau du sang sont soutenues. En cela ne supporte que le niveau de table. 2) Intégration de Ranger Atlas et Apache, peut autoriser / protéger les données d'accès aux données en fonction des classifications liées aux entités d'Atlas. Dans quel manque d'utilisateurs efficaces, la capacité de gérer l'autorité. 3) Il existe de nombreux systèmes source soutenus par ATLAS. 4) DataHub uniquement du jour au lendemain, la gestion des données est similaire à celle-ci, axée sur la détection de métadonnées (recherche, interrogation). 5) L'ATLAS est progressivement populaire dans le même secteur et la communauté est plus active que dans laquelle il y a lieu et datahub.

Sujets

Les données

Catégories

Plate-forme intermédiaire de données