Architecture et 3 options d'outil de composant de la couche principale pour les entrepôts de données

En ce qui concerne le concept, les principes, les méthodes de construction des entrepôts de données, il existe de nombreux contenus sur Internet et il existe également de nombreux classiques. Cet article est plus susceptible de parler d'outils architecturaux et composants sur le projet d'entrepôt de données d'entreprise.

Parlez de l'architecture.

1. Architecture d'entrepôt de données d'entreprise

Introduction à l'entrepôt de données, a une déclaration simple et rudée, "Tout entrepôt de données est original d'analyse des données et l'autre extrémité de l'outil d'intégration des données. Base de données d'interface .

L'entrepôt de données permet de gérer d'énormes ensembles de données, de la conversion, de la conversion, de la transformation des données de données et de la présenter avec le mécanisme de stockage de l'utilisateur. Les multiples méthodes architecturales étendent la capacité de l'entrepôt de données ou comme nous le disons de discuter Les problèmes les plus nécessaires et les problèmes complètes. L'ensemble architectural décentralisé peut être divisé en 4 classes sans envisager de spécifications excessives:

Classe de données originale (source de données)

Formulaire d'architecture de l'entrepôt de données

Collectez des données, collectez-vous, nettoyer et convertir

Classe d'analyse de pression 1. Un architectural COUCHE (Connexion directe)

Dans la plupart des cas, Warehouse de données est une base de données relationnelle contenant du module de tissu permettant de multiples données dimensionnelles ou est divisé en plusieurs domaines d'information multi-sujets, plus il n'y a qu'une seule couche d'architecture dans l'entrepôt de données.

La seule architecture de classe est directement connectée à l'interface d'analyse (connexion directe) et les utilisateurs finaux peuvent interroger directement. Cependant, il existe un inconvénient simple et une applicabilité:

Traditionnellement, la conservation des entrepôts de données est de 100 Go et une connexion directe peut provoquer une vitesse de traitement de la requête de données, car les données correctes sont interrogées directement à partir du bon entrepôt de données ou une entrée, il y a de nombreuses données inutiles pour filtrer beaucoup de données inutiles, tout à faitHigh pour les exigences de performance des bases de données et des outils de BI antérieurs et des performances de base ne seront pas trop élevées.

De plus, la performance est limitée au traitement de l'analyse complexe et appliquée rarement aux grandes plates-formes de données en raison de la résistance lente et imprévisible. Pour mettre en œuvre des requêtes de données avancées, les entrepôts de données doivent être étendus dans des cas faibles pour simplifier les requêtes de données. 2. Architecture de données à double classe (classe de marché des données)

L'architecture à deux couches ajoute la classe de marché de données dans la classe d'application avant et de la classe EDW. Les miles de données sont un stockage de stockage de bas niveau contenant des informations de domaine thématiques spécifiques. En bref, il s'agit d'une base de données plus petite d'extension EDW selon des sujets spécifiques (tels que les ventes, les opérations, les marchés, v.v.).

Cette approche résout des problèmes et analyse les données du ministère, chacune des pièces peut être plus facile à accéder aux données nécessaires, car chaque marché ne contient que des informations de domaine, à l'extérieurOut, les données finies de l'utilisateur final ont placé un privilège de données pour la plage d'accès des données. Mais la création d'une couche de marché des données nécessite plus de ressources matérielles et l'intègre avec d'autres bases de données de la plate-forme de données.

3. Architecture à trois couches (OLAP) Au-dessus de la classe de marché des données, nous utilisons souvent une analyse en ligne (OLAP) pour gérer des blocs (cube). DataSet OLAP est une base de données spécifique de données de description multidimensionnelles. Les bases de données relationnelles ne peuvent représenter que des données bidimensionnelles, tandis que OLAP permet de compiler des données par multi-dimensions et en mouvement entre la taille.

OLAP est dédié à l'analyse des données de modélisation de la taille, puis le résultat de OLAP est affiché dans le graphique par BI.

La valeur de OLAP est que les données sont autorisées à séparer des données et analysées des tranches pour donner accès à toutes les données commerciales ou à toutes les foires de données spécifiques, et maintenant, il existe une application architecturale.Adieu.

Le diagramme architectural suivant utilise l'architecture la plus largement utilisée, notamment en tête, moyen et inférieur.

Ci-dessous: La base de données des serveurs d'entrepôt de données agit comme base, généralement un système de nettoyage de base de données, de conversion et de téléchargement d'outils auxiliaires de données.

Couche intermédiaire: La couche intermédiaire de l'entrepôt de données est un serveur OLAP déployé par Rolap ou Molap Model. Pour les utilisateurs, cette couche d'application affiche la vue abstraite de la base de données, agissant comme un intermédiaire entre les utilisateurs finaux et les bases de données. Haut: La couche supérieure est la couche d'application frontale, reliant l'entrepôt de données et la récupération de données ou d'API à partir de l'entrepôt de données. Les applications normales incluent les requêtes de données, l'analyse de rapport, l'analyse de données BI et l'exploitation minière des données et d'autres développent des applications.

À partir de l'application fonctionnelle et de l'architecture technique, vous trouverez ci-dessous la carte de l'architecture de l'entrepôt de données.T détails pour les grandes entreprises moyennes.

Composant de base à 4 couches de l'entrepôt de données: sous la base de données de source (schéma de stockage de données), ETL, application frontale et service OLAP.

II. Base de données de la base de données

Le serveur d'entrepôt de données inférieur est généralement un système de base de données relationnelle (différentes statistiques de SQL pertinentes seront plus pratiques, les données non relationnelles des installations sont actuellement dans la différence de différences de différences). Les programmes populaires incluent Oracle, DB2, SQLServe et EssBase, Greenplum, Teredata et d'autres solutions d'entrepôt de données professionnelles.

1. Utilisation des bases de données relationnelles traditionnelles ou des bases de données MPP étendues après la fonction

1 Base de données relationnelle traditionnelle: Oracle, MySQL, DB2

2 Base de données de traitement parallèle à grande échelle: Vertica , Teradata (Business), Greenplum (Open Source)

Les anciennes rivières et lacs de Teradata, l'industrie bancaire est plus, mais dépensesLes frais véritablement coûteux, nous faisons actuellement plus de projets, utilisant Greenplum, constitue le plus haut et le plus élevé de données de données haut de gamme de la plus haute qualité dans l'industrie. Solution, Greenplum basé sur PostgreSQL et ouvert en 2015. Je sais qu'il y a 3 lignes nationales et 5 entreprises logistiques ont quatre sorties utilisées et de nombreuses entreprises passent de Teradata à GP.

2. Architecture de la plate-forme de données importante: Hadoop + Hive

Combien d'usages courants que cet ensemble n'est plus, généralement une combinaison de données PG TB, GP TB Niveau Data, PB Niveau PB Je sur les données avec Hadoop.

L'architecture traditionnelle de l'entrepôt de données est organisée et GP a également un diagramme de comparaison de la grande plate-forme de données Hadoop.

III. Outil de collecte, de collecte, de nettoyage et de conversion (ETL)

Les outils de commutation et de conversion et les outils de déplacement sont utilisés pour effectuer des données de conversion en stockage de données. Tous les changements, résumés et tous les autresJ'avais besoin du format également appelé outils d'extraction, de conversion et de téléchargement. Ses fonctions incluent:

1. Extraire

Extrait du montant total: adapté à une petite quantité de données et ignorera facilement que son changement de données, tel que des tables de relation, des dimensions, etc.

EXTRAIT A augmenté: approprié pour la quantité de données, la stratégie d'exploitation est utilisée pour enregistrer l'heure d'extraction

2. Nettoyage

Valeur de manutention NULL: remplacez la valeur null à un Vérification directe

Vérifier la précision des données: Traitement des données uniformes ne répond pas à la signification des entreprises

] Spécifier le format de données: Par exemple: standard tous les jours à aaaaa-mm -DD format

Données de transfert: Convertissez le champ de données source en marketing codé sur le champ. Le marketing codé est lié pour indiquer la valeur de la signification réelle

Normes de données unifiées: Par exemple, il y en a beaucoupu façons de représenter des hommes et des femmes dans les données source., Conversion directe en fonction de la valeur spécifiée dans le modèle pendant le processus de tirage.

3. Convertissez et téléchargez

Convertir: Actualisez la table en DW dans l'augmentation ou toutes les données de SADS

Télécharger: chaque fois que vous insérez des données dans le panneau de téléchargement des données

Relatif à la sélection d'outils ETL, le tableau de comparaison indiqué ici et l'outil ETL inclut la popularité incluse. 4. Outil d'application frontal

La plate-forme finale de l'entrepôt de données combinera vos données utiles, fournissant des informations précieuses et des informations de soutien à une entreprise d'aide à prendre des décisions précises.

L'outil d'application frontal interagit principalement avec des données avec des liens différents des entrepôts de données. Ces applications peuvent souvent être divisées en 4 catégories:

Tools de requête et Rapport de données

BI MI

Outil minier de données

Outil de développement d'applicationsBasé sur l'entrepôt de données ou le marché des données

dans lequel les outils d'analyse de données sont principalement ciblés par des serveurs OLAP, des outils de rapport, des outils d'exploitation principaux pour l'entrepôt de données.

1. Les outils de référence et de reporting de données

sont souvent utilisés pour créer un grand nombre de processus de traitement par lots de certaines classes fixes, rapports automatiques, impression de support et informatique.

Les outils de rapport populaires, principalement IBM, Oracle Beee et Microsoft et Cognos et Rapports existent en tant que composant des solutions d'entrepôt de données. Cependant, avec des entrepôts numériques traditionnels, l'architecture est très chère, de nombreuses entreprises examineront l'architecture de conception du projet, au lieu d'un accès direct à des solutions coûteuses, y compris de nombreuses composants / plates-formes open source.

Il existe une plus grande gamme d'outils de rapport pour les outils de rapport. Par exemple, diverses bases de données créent des rapports directement; Rapports multidimensionnels du lienLa HUC collectée est présentée et soutient le rapport d'analyse commerciale; Entrepôt de données Dock du Groupe, construisez la plate-forme de centre de données et la forme de plates-formes d'analyse décisives.

2. Outil d'analyse de musique de balle

BI intègre souvent des serveurs OLAP et des fonctions d'affichage du rapport. Analyse de la BI basée sur des concepts de base de données multidimensionnelles, peut analyser des données, généralement un sous-ensemble de données détaillées provenant d'entrepôts de données et stockés dans la mémoire OLAP dans le front d'outil d'analyse BI. BI remplit différents rapports d'analyse en faisant glisser des champs de données, des données de déploiement multidimensionnelles et des données de déploiement multidimensionnelles. Les outils BI populaires ont PowerBI, Tableau, Finebi et Superset Open Source. Utilisation des personnes à usage multiples, la sélection du projet d'entreprise est FINEBI polyvalente en raison des performances, des diagrammes de service, V.V. Devrait être considéré. Le reste est une source auto-développée ou ouverte et Superset est une source ouverte relativement reconnue.

N ° CIl y a beaucoup de choses à dire quels outils BI font. Principales considérations lorsque la sélection du projet est principalement examinée (révision des activités basée sur les entreprises), efficacité de traitement des données et autres types techniques.

3. Outil d'exploration de données

OLAP est une analyse des angles de visualisation multidimensionnels avec l'algorithme de l'application pour révéler l'algorité des données, telles que des corrélations, des régimes et des tendances. Les outils d'exploration de données le font, permettant des algorithmes et de l'automatisation des processus.

Par exemple, tels que l'entrepôt de données bancaires stocké dans le thème "Client", OLAP peut déployer des données en fonction des informations de base, des informations de compte d'épargne, des historique des informations d'information, des journaux de transactions bancaires, etc. Analyse en termes de rapport ou de visualisation, la formation de clients multidimensionnels, les données sont découvertes et mieux marketing pour différents types d'utilisateurs. L'exploitation minière des données est configurée via des données de calendrierl'histoire. Sur la base de l'histoire appropriée, il analyse la tendance à l'avenir. C'est probablement la perte finale du client, en évitant ainsi. Outil d'exploration générale des données, R, Python également SPSS, fondamentalement toutes les applications open source. Contrairement aux balles et aux rapports, il existe très peu d'outils commerciaux ou de services de projet pour personnaliser l'analyse et l'excavation des données sur le marché. Besoin d'être très familiers avec les entreprises, les données, la plate-forme, donc je l'ai vu. Cet analyseur de données ou type de talent talentueux est talentueux. 4. Développement des applications

Type de rapport ci-dessus, analysant les produits de données, mais il y aura un système de détermination de données pour différents services spécifiques, tels que les produits de Ngan, basé sur la surveillance de la gestion de livres à long terme, la vente au détail L'industrie sur le système de décision de stocker des activités de données, ainsi que le personnel marketing des plates-formes de commerce électronique (participation à des objectifs et numéros de marketing de pins, tels que les activités de publicité pour la mère et le marché de la mère pour enfantsT âge, le système peut être basé sur la plupart des produits de données calculés précédemment doit être sélectionné, dans le groupe d'utilisateurs, sous une meilleure forme de fonctionnement), basé sur une telle logique - basée sur la profondeur des applications. À ce stade, ce nombre est le rôle d'une plate-forme de service. Par exemple, les données de l'incendie actuel constituent également généralement cette logique et les données sont sérialisées. Si vous ne comprenez pas, vous ne comprenez pas.

Ce service, bien sûr, il doit être développé. Il existe également un serveur OLAP intermédiaire entre trois couches, souvent déployé sous forme de modèle Rolap ou de modèle MOLAP. Aujourd'hui, de nombreux outils BI matures sont des serveurs OLAP intégrés, nous avons donc besoin de sélectionner des outils d'ETL et des systèmes de stockage et des diagrammes de BI visualisés, de sorte que OLAP ne dit pas grand chose.

Sujets

Les données

Catégories

Plate-forme intermédiaire de données