Data Warehouse Series: une méthode de hiérarchie d'entrepôt de données générale

Série d'entrepôts de données: L'icône est cohérente avec les couches de données précédentes constitue une partie très importante de la conception de l'entrepôt de données et une excellente conception hiérarchique permet à l'ensemble du système de données. C'est plus Facile à comprendre et à utiliser. La plupart des réseaux actuels peuvent être récupérés dans des articles connexes, il suffit simplement de faire référence à la conception des couches de données ou à l'absence de descriptions claires et détaillées, ou d'absence de divulgation, oriquement ou d'exemples spécifiques manquants.

Par conséquent, cet article indiquera une méthode de hiérarchie de l'entrepôt de données généralisée, qui comprend les éléments suivants:
1, l'action de la superposition de données
2, la conception hiérarchique de données générales, comme ainsi que les principes de la conception hiérarchique
3, l'exemple spécifique montre
4, proposant peut être réduit

1. Pourquoi la superposition de données est-elle? "

Cela devrait être un entrepôt de données Les étudiants devraient d'abord être contestés lors de la conception de couches de données, de nombreux problèmes sont de nombreux problèmes, tels que" Pourquoi voulez-vous faire des données entrepôt? "," Pourquoi est-ce que je veux être la gestion des métadonnées? "," Pourquoi la gestion de la qualité des données? " Bien sûr, nous ne parlons que de pourquoi concevoir des couches de données.

En tant que planificateur d'une donnée, nous devons savoir que vos données peuvent être modifiées et que tout le cycle de vie des données peut être clair et clair. Les concepteurs et les utilisateurs perçoivent. Intuitif, le graphique gauche suivant est clair et dépend de la relation.
Cependant, dans la plupart des cas, le système de données que nous avons terminé est compliqué et la hiérarchie est confuse. Comme indiqué dans la bonne image, nous pouvons faire une confusion de structure dépendante de table et même un système de données dépendant de la boucle.

Par conséquent, nous avons besoin d'un ensemble de lignes que des organisations de données efficaces et des méthodes de gestion rendent notre système de données plus d'ordre , c'est la hiérarchie de données. Les données hiérarchiques ne résolvent pas toutes les problèmes de données, mais le hiérarque de données peut nous apporter les avantages suivants:

1. Structure de données claire: chaque hiérarque de données a sa portée et ses responsabilités, peut être plus pratique à localiser et à comprendre Lorsque vous utilisez la table

2, Réduisez le développement dupliqué: la superposition de données standardisée, développez certaines données de couche intermédiaire universelles, peut réduire de grands calculs de répétition

3, calibre de données unifiées: fournir une sortie de données unifiée, un calibre de données de sortie externe unifié

4, Problèmes complexes Simplifiez: Décomposez une tâche complexe à plusieurs étapes à compléter, chaque couche résout un problème spécifique

Deuxièmement, une deuxième, une hiérarchie générale générale Conception

Afin de satisfaire aux avantages hiérarchiques de données mentionnés précédemment, nous divisons le modèle de données en trois couches: opération de données (ODS), Warehouse de données (DW) et couche d'application de données (application). Comme indiqué ci-dessous. De plus, nous pouvons comprendre que ** ODS Layer stocke les données d'origine d'accès, la couche DW est la base de couche intermédiaire stockée dans l'entrepôt de données que nous devons nous concentrer sur et l'application est une donnée d'application personnalisée sur les entreprises. ** L'introduction détaillée suivante est détaillée en détail.

1, couche de fonctionnement de données: SAO (stockage de données opérationnelles) "Thème", couche de fonctionnement de données, Aussi appelé la couche ODS, est la première couche de données dans la source de données, des données de la source de données, après extraction, lavée, de transfert et après l'ETL légendaire, chargez cette couche. Les données de cette couche sont principalement classées conformément à la méthode de tri du système de service source. De manière générale, afin d'envisager des travaux de nettoyage de données ultérieurs, il n'est pas recommandé de faire trop de travail de nettoyage de données pour cette couche, et il n'est pas recommandé d'accéder aux données d'origine. En ce qui concerne le traitement de la valeur anormale de la dénoage, de la ré-poids. et d'autres processus peuvent être effectués dans la couche DWD arrière.

2, couche d'entrepôt de données: DW (entrepôt de données)

La couche d'entrepôt de données est une couche que nous voulons Pour concevoir dans l'entrepôt de données. Ici, les données obtenues à partir de la couche ODS sont établies conformément au sujet de divers modèles de données. La couche DW est subdivisée dans une couche DWD (détail de l'entrepôt de données), la couche DWM (Data Warehouse Middle) et DWS (Service Warehouse Service).
(1) DonnéesCouche de classement: DWD (détail de l'entrepôt de données)

La couche est généralement détenue comme la même granularité de données que la couche ODS et fournit une certaine assurance qualité des données. Dans le même temps, afin d'améliorer la facilité d'utilisation des données, cette couche utilise certaines techniques de dégradation de la dimension pour dégrader les dimensions dans la table des faits, réduire la relation entre les faits et la dimension.

En outre, dans cette couche, une partie de l'agrégation de données sera collectée dans une table et la disponibilité des données est collectée et les éléments suivants seront expliqués.

(2) Couche intermédiaire de données: DWM (Warehouse de données Milieu)

Cette couche effectuera des opérations d'agrégation légères sur la couche DWD, générera une série de tables intermédiaires, renforcer la réutilisation des indicateurs publics et réduire le traitement de la répétition.
Invisible est la polymérisation de la dimension centrale de base, calculant les indicateurs statistiques correspondants.

(3) Couche de service de données: DWS (Service de l'entrepôt de données)

également appelée marché de données ou la table de largeur. Selon la division des entreprises, telle que le trafic, les commandes, les utilisateurs, etc génère une variété de tables de largeur pour les requêtes d'entreprise ultérieures, l'analyse OLAP, la distribution de données, etc.

En règle générale, le tableau de données de la couche sera relativement relativement relativement, une table couvrira davantage de contenu opérationnel, car il existe de nombreux champs, par conséquent, la table est donc appelée table de largeur.
Dans les calculs réels, si les indicateurs statistiques de la table large directement à partir de DWD ou SAO sont un problème que le montant du calcul est trop important et que la dimension est trop petite, l'approche générale est donc de calculer la DWM. Une pluralité de petites tables intermédiaires, puis épissage dans une largeur DWS. En raison des limites de la largeur et des limites étroites, vous pouvez également supprimer cette couche de DWM, laissant uniquement la couche DWS, mettez toutes les données de DWS.

3, couche d'application de données: application (application)

ici, il est principalement de fournir des données utilisées par les produits de données et l'analyse des données, Ce qui est généralement stocké en Es, PostgreSQL, Redis et d'autres systèmes.Il peut y avoir une ruche ou une druide pour l'analyse des données et l'exploitation minière des données. Par exemple, les données du rapport que nous disons souvent sont généralement placées ici.

4, dimension

enfin complétée par une dimension de la couche de surface, la surface de la dimension comprend principalement deux parties:
hautes Données dimensionnelles-Based: Généralement, la fiche technique de l'utilisateur, le formulaire d'informations sur le produit similaire à la fiche d'information. La quantité de données peut être des dizaines de millions ou de centaines de millions de milliards.

Données de dimension à faible cardinal: Généralement, une table de configuration, telle qu'une signification chinoise correspondant à une valeur d'énumération ou à une date d'information. La quantité de données peut être un nombre de bits ou des dizaines de milliers.
À ce stade, nous avons terminé la signification de chaque couche de la hiérarchie de données, qui est un résumé à comprendre, comme indiqué ci-dessous.

Prendre du fer chaud, donner une châtaigne, comme indiqué ci-dessous, peut être considéré comme une conception de système de données d'un site Web de commerce électronique. Nous faisons attention uniquement aux journaux d'accès des utilisateurs.

1. Dans la couche ODS, le journal d'accès de l'utilisateur est divisé en plusieurs couches ODS en raison de différentes équipes de développement à chaque extrémité ou à divers autres problèmes.

2, afin de faciliter l'utilisation de chacun, nous avons fait des flocons de comportement de visite à l'utilisateur dans la couche DWD, nous allons ici la page PC, H5, les applets et les journaux d'accès des applications natives recueillies Pour une table, un nom de champ unifié, améliorer la qualité des données, il existe donc une liste de livres qui peuvent être pratiques pour tout le monde.

3, dans la couche DWM, nous choisirons la dimension essentielle de l'intérêt de l'entreprise de la couche DWD à l'agrégation, telles que la réservation de personnes, des marchandises, des dispositifs et des dimensions de la zone de page. De même, nous avons fait beaucoup de table intermédiaire DWM

4, puis dans la couche DWS, nous allons prendre une personne dans les données du comportement du site Web dans une table, c'est notre Formulaire large. Avec cette table, vous pouvez rapidement répondre à la plupart des besoins commerciaux à usage général.

5, Enfin, dans la couche d'application d'applications, les données sont apportées à une table d'application d'une ou plusieurs tables de la couche DWS en fonction des exigences.

REMARQUE: L'exemple est simplement de simplement expliquer le rôle de chaque couche, pas la solution la plus raisonnable, tout le monde peut s'en occuper.

Comme il s'agit de la superposition de données, quels sont les systèmes de calcul et de stockage sont utilisés à différents niveaux, ce la section est simple à partager.

Le stockage de la couche de données est généralement comme suit:
1, source de données: la source de données est généralement une bibliothèque d'affaires et un point enterré, bien sûr, il y aura une tierce partie. Données d'achat. Mode source. Le stockage de la bibliothèque d'affaires est généralement MySQL et PostgreSQL.
2, couche ODS: Les données ODS sont généralement très importantes. La plupart des entreprises choisiront HDFS, nommément ruche ou hbase, multiple de Hive.

3, DW Countrers: Stockage général et SAO, mais afin de répondre davantage d'exigences, il est également stocké dans l'affaire PG et ES.

4, couche d'application: les données de la couche d'application, nécessitent généralement une vitesse de réponse relativement rapide, elle est donc généralement dans MySQL, PG, Redis Middle.

Calculez le moteur, vous pouvez simplement vous référer aux lignes énumérées sur la figure. À l'heure actuelle, l'itération de la mise à jour technique des Big Data est rapide et cette section indiquée n'est qu'une simple référence.
5. Penser

Penser et quel est le principe de résumer les données hiérarchiques? Pourquoi cette hiérarchie est-elle? Quelles sont les limites entre chaque couche? J'ai personnellement compris la division des données de ces perspectives:
1. Du soutien de la demande, nous espérons obtenir le niveau suivant, plus appliquer l'amitié. Par exemple, la couche d'application, entièrement entièrement conçue, très facile à comprendre, la couche DWS, relativement, il y aura un coût peu compréhensif, puis les couches DWM et DWD sont plus difficiles.Comprenez parce que cela peut être beaucoup plus, et une exigence peut avoir plusieurs tables complexes.

2, de la gamme de capacités, nous espérons que 80% de la demande est soutenue de 20% du tableau. Directement, il s'agit de la plupart (plus de 80%) de la demande, utilisez la table DWS pour prendre en charge, DWS ne peut pas prendre en charge, utiliser la table DWM et DWD pour prendre en charge, ils ont tous pris en charge que toutes les participants sont prises en charge dans le journal d'origine. En conjonction avec le premier point, il s'agit de 80% des besoins, nous souhaitons tous supporter l'application de l'application très sympathique, plutôt que directement l'exposition du journal d'origine de l'application.

3, du degré d'agrégation de données, nous espérons que plus l'agrégation des données est élevée, plus le degré de polymérisation, l'exemple ci-dessus, les données SAD et DWD est essentiellement la granularité de la Le journal d'origine, ne faites pas de fonctionnement d'agrégation, DWM a une opération d'agrégation légère conserve uniquement les dimensions générales, DWS a une opération d'agrégation supérieure, peut seulement réserver un à deux peut être caractérisée que la dimension du corps principal est désormais décrite. Dans cette perspective, nous pouvons comprendre que nous sommes divisés par le degré d'agrégation des données.

Résumé

La conception des données hiérarchiques, et dans une certaine mesure, il doit également être nommé par des données, au cœur de cet article. En termes d'explication Parmi les idées et les méthodes de superposition de données, il y aura des articles distincts pour partager comment concevoir la spécification de dénomination pour la table de données en fonction de la superposition de données.

Sujets

Les données

Catégories

Produit de données