Skip to main content

Commencez par l'architecture globale Construction de grandes entrepôts de données.

L'image ci-dessous est la hiérarchie logique de l'entrepôt de données:


Je souhaite comprendre le système de hiérarchie logique de l'entrepôt de données et vous devez d'abord comprendre quatre concepts suivants.


Source de données:

Source de données, source de données du groupe Internet augmente en fonction de l'échelle d'expansion de la société et en même temps de différentes sources d'activité, telles que la collecte , Rapports clients, API, etc.


Classe ODS:

Les données de la feuille de données de données stockent généralement une copie, appelée SAO et CLASSE SAD sont souvent appelées préparation. Région. Cette classe est active en tant que source et données de ces systèmes source et cette source liée aux données divisées en toutes les mises à jour et à des mises à jour augmentées, performant souvent quelques nettoyages simples dans la source de la source.


DW Classe:

Classe de synthèse sur les changements de classe et les couchesL'entrepôt de données est le contenu thématique de l'entrepôt de données. Diviser la date de certaines données est effectuée, ce qui en fait une classification plus spécifique, généralement divisée en un an, le mois, tandis que la classe ODS entre dans la classe de la couche ETL est nettoyée, conçue selon les besoins de l'entreprise, la conception, si aucune entreprise ne nécessite, selon La structure de données du système source et de la planification à l'avenir, les exigences de données de cette classe sont cohérentes, précises et intégrité de la création de données de données.

Classe DWS:

Couche d'application abstraite, principalement pour résumer les détails DWD et DW sur la plate-forme Hadoop, puis synchronisez les résultats avec la base de données DWS, fournie pour chaque application. Par exemple: de la classe ODS au comportement de l'utilisateur, il s'agit d'un résumé original, de résumé, de certaines tailles universelles: heure, IP, ID et certaines statistiques basées sur ces tailles, par exemple, entrez le segment temporel de l'utilisateur dans les journaux IP différemment du Nombre d'articles d'articles. Voici une couche synthétique légère àCalculez plus efficacement, basé sur le calcul que sur 7 jours, 30 jours, 90 jours de comportement seront beaucoup plus rapides.


1 CRM, ERP, etc., des données utilisées par les produits d'entreprise, existaient dans les données de partage de la classe de division, accès directement à partir de classes de partage de données;

2 Rapports FINEREPORT, Rapports d'entreprise, Données utilisées dans le rapport, les données utilisées dans le rapport sont généralement un résumé statistique, stocké dans la classe de partage, que ce soit;

3 即 Les utilisateurs d'utilisateurs avec de nombreuses personnes peuvent être des développeurs de données, des sites Web et des opérateurs de produits, des analystes de données et même des patrons des parties du ministère, ont tous les besoins des données;

4 OLAP: De nombreux outils OLAP ne peuvent actuellement pas prendre en charge directement de HDFS pour mettre en œuvre OLAP dans des bases de données relationnelles, mais si la base de données de données très importante, le système n'est clairement pas

5 autres interfaces de données: cette interfaceAvoir général, personnalisé. Par exemple: une interface qui reçoit les attributs d'utilisateur de Redis est courante, tous les services peuvent appeler cette interface pour obtenir l'attribut utilisateur.


1. Les tâches de la couche de données collectent et stockent des données à partir de différentes sources de données et que certaines opérations ETL peuvent être effectuées. Il existe de nombreuses sources de données:

Diary: le partage est le plus important, stocké sur le serveur de sauvegarde sur le serveur de sauvegarde: tel que MySQL, les données Oracle des données HTTP / FTP: partenaire est fournie par d'autres sources de données: Excel et d'autres données



, stockant et analysant des données

parce que l'échelle de la société continue d'ouvrir de la place large, les résultats des données sont de plus en plus, comme un grand nombre d'entreprises chaque jour. La quantité de données est créée au niveau PB. Les bases de données traditionnelles ne peuvent plus respecter les exigences de stockage actuelles et HDFS est la solution de stockage de données la plus parfaite pour les plates-formes de données / données dans l'environnement.Grand matériau.

Analyse et calcul des données hors connexion, ce qui signifie une partie des demandes en temps réel, le nid d'abeille est toujours le premier choix. Types de données riches, fonctions intégrées; Le ratio de compression est un format de stockage de fichiers orc très élevé; Le support SQL est très pratique, de sorte que Honeycomb est beaucoup plus efficace que MapReduce sur la base de données structurées, la demande de SQL peut compléter le développement de MRS peut avoir besoin de cent lignes de code. Bien entendu, l'utilisation du cadre Hadoop fournit naturellement une interface Mapreduce, si vous souhaitez vraiment développer Java ou que vous n'êtes pas familier avec SQL, vous pouvez également utiliser MapReduce pour analyse et calcul.


Partage de données


Les données partagées ici sont en réalité le stockage et l'analyse des données précédemment stockées, en fait, les relations de base et les bases de données de base de la base;

L'utilisation de la ruche, MR, Spark, SparksQL Résultats et Calculez des résultats ou sur HDFS, mais la plupart des services et applicationsIls ne peuvent pas obtenir directement des données à partir de HDFS, puis doivent partager des données faciles à obtenir des données pour chaque entreprise et produit. Et la couche de collecte de données à HDFS est l'inverse, qui doit synchroniser les données de HDF à d'autres sources de données cible. L'outil, similaire, Datax peut également être rempli.


De plus, des données de résultat de calcul en temps réel peuvent être enregistrées directement à partir de modules de calcul en temps réel pour partager des données.

Quatrième modèle, mercredi

La taille de la modélisation est utilisée spécifiquement pour la base de données analytique, l'entrepôt de données, les champs de données de la méthode de marketing. Ici, vous rapportez deux noms de base: taille, vérité.


Taille: La taille est la base et l'âme du modèle de taille. Dans la modélisation de la taille, les données réelles sont que l'environnement est décrit comme la taille et la taille utilisées pour analyser la diversité nécessaire pour l'analyse des événements.Par exemple, dans le processus de négociation analytique, l'environnement peut être décrit par les acheteurs, les vendeurs, les biens et le temps.
La vérité: en raison du noyau de la taille de la taille de l'entrepôt de données de modélisation, il est bien conçu autour du processus métier et le processus métier est indiqué par des données sur les descriptions de processus métier, y compris les citations et processus métier des données connexes. Les détails des détails de l'entreprise sont indiqués dans la table réelle appelée granulométrie. Normalement, la taille des particules peut être indiquée de deux manières: l'une est un niveau détaillé représenté en combinant l'attribut de taille, un service spécifique de la performance.

Il suffit de mettre, les dimensions sont l'angle (taille) du problème, le fait que le contenu que vous devez faire attention. Par exemple, les utilisateurs utilisent un camion de dépose, puis le taxi peut être converti en une livre réelle, ce qui signifie que la table de commande fiscale et les chaussettes utilisateur respectivesLa taille et pilote d'utilisateur correspondent à la taille du conducteur.

1, trois modes de modèle Taille:


Mode étoile


L'architecture d'étoile est une structure inhabituelle caractérisée par une réalité il y a un facteur et aucune taille de gradient et une table réelle et La table d'alignement est associée à la liaison principale et le compteur de taille n'est pas liée en raison des dimensions des dimensions, alors n'avez pas besoin de trop de connexion externe lors de la mise en place des statistiques.

Mode de flocon de neige L'architecture de modèle de flocon de neige extraite des tailles dans le modèle d'étoile dans une taille de taille plus lisse, puis à la taille de la table également connectée. La performance de la requête est améliorée en maximisant la réduction des données de stockage et les tables de taille minimale générales.



L'image ci-dessous montre la relation entre la taille de la modélisation à l'aide du mode flocon de neige:


Grand mode étoile, et il n'est pas satisfait. Conception standard. Les modèles de flocon de neige sont équivalents à la séparation des tables de grande dimension d'étoile dans une petite dimension pour répondre à la conception standard. Cependant, ce modèle est rare dans des applications pratiques, car cela conduira à de nombreuses difficultés de développement et de problèmes de fourniture de données dans des données non graves.


Data Warehouse comprend de nombreux thèmes, y compris de nombreux événements et tailles sont publics, peuvent être partagés, ce mode peut être vu pour implémenter la collection de mode étoile, appelée Galaxy ou mode de constellation pratique.


En fait, le mode Constellation est un échantillon de données utilisées dans l'entrepôt de données, en particulier un entrepôt de données d'entreprise (EDW). Il s'agit également d'une caractéristique typique des entrepôts de données du marché des données. Fondamentalement, le mode de données Mode de données d'entrepôt est davantage pour éviter la réutilisation redondante et les données, avec des modes pré-manufacturés, qui est entrepôt.Les données de conception les plus raisonnables. S choix.



2, concevoir les dimensions:

Le processus de conception de la taille est le processus de détermination de l'attribut de taille, comment créer des attributs de taille et des avantages et le désordre de la taille est Créé pour déterminer la taille de la taille et devenir la clé de la facilité des entrepôts de données. La capacité de l'entrepôt de données est proportionnelle à la qualité et à la profondeur des caractéristiques de taille.


3, la méthode de conception de base de compteur géométrique:


Obtenez la libération de la conception de la taille à titre d'exemple.

Première étape: identifier la taille, avec l'unicité. Est le noyau de la modélisation de la taille, dans l'entrepôt de données d'entreprise, le caractère unique de la taille doit être garanti. Prenez la taille du produit à titre d'exemple, une seule définition de taille. Étape 2: Déterminez le panneau principal, déterminez la table principale de la taille description, la taille principale de ceci est généralement la table SAO, qui est cuivre.Ensemble direct de systèmes d'entreprise.

Étape 3: Déterminez le tableau correspondant, déterminez la table de taille correspondante en fonction de la connexion entre le trafic. Data Warehouse est une base de données d'intégration de données, de systèmes d'entreprise ou de tableaux différemment dans le même système d'entreprise et en identifiant les tableaux de table principaux et les tableaux qui ont des relations liées en fonction du service de la carte système et de sélectionner des tables. Utilisé pour créer des attributs de taille. Prenez la taille du produit à titre d'exemple, en fonction de la carte logique de l'entreprise, du lien entre les biens et le type, les sku, les acheteurs, les vendeurs, les magasins et autres tailles peuvent être utilisés.

Étape 4: Définissez l'attribut de taille contenant deux étapes. La première étape sélectionne les propriétés de la taille du panneau principal et la deuxième phase sélectionne les propriétés de la taille de la table de dimension correspondante.

Détermination de la taille avec les principes suivants:


1 taille large, pour une analyse en aval, avec un visage statistique offre une bonne plate-forme

tCode à double guidage fournit un code + description du document, cryptage dans l'association de table, texte représentant le label réel 3 Précipiter la taille générale et réduire la complexité de l'utilisation de la tournée pour éviter les incohérences Diamètre en aval


Produits de taille AS l'exemple, de la taille principale et du type, de la SKU, du vendeur, du magasin, etc. Sélectionnez l'attribut Taille ou créez un nouvel attribut de taille.


Ce mode appartient au mode de flocon de neige. Pour la taille du produit, s'il est utilisé, il sera affiché comme indiqué ci-dessous:


Appliquer le mode de flocon de neige, en plus de sauver une partie de stockage partielle, car il n'y a pas d'autres utilitaires dans le système OLAP. À ce stade, de très faibles coûts de stockage. Pour faciliter l'utilisation et la performance, la taille est généralement conçue pour être contrôlée. Dans des applications pratiques, utilisez presque toujours l'espace de la taille pour échanger de brèves performances et une requête.

4, conception réelle de la table:

est le noyau du modèle de taille d'entrepôt de données, il entoure le processus métier de concevoir, démontrant des processus métier en prenant les données de description du processus métier, contient des tailles de référence et des processus commerciaux.


Dans la taille opposée, la table réelle est beaucoup plus facile et l'augmentation de l'augmentation d'une augmentation est beaucoup plus rapide que la taille. Les événements sont divisés en trois catégories: planches de transaction, planches d'information sur instantanés, planches d'information photo cumulées. Cet article traite principalement de la forme réelle et ne fait pas de mots.

5, principes de la conception de suivi pratique et des méthodes de conception de base:


Le fait que tous les processus métier liés à toutes les activités que la dynamique ne soit sélectionnée que pour impliquer la décomposition réelle de la réalité la décomposition sur la taille du plus et la taille des particules réelle doit être déclarée dansLa même carte d'information, unité sans différentes tailles de particules dans la même table d'information, la valeur unanime de la valeur null pour gérer l'utilisation de la dégénérescence. Événements faciles à utiliser


Tout type d'événement peut être interprété comme une transaction. Exemple: livraison, acheteur, paiement, etc. pendant la transaction, la signature, le paiement, le V.V. La table réelle de ces processus est une table réelle créée.

6, la transaction de magasin suivante est un exemple et le processus de conception général de la table d'informations de négociation expliqué.

(1) Choisissez le processus métier et déterminez le type de table réel:

Le processus de transaction est divisé en: Création des commandes, des acheteurs paie, vendeur, des acheteurs de confirmer la réception, que est, ordre, paiement, livraison et finition réussie quatre processus métier. La théorie de la modélisation de la taille de KIMBALL pense que la recherche d'une analyse indépendante devrait définir un tableau T.Vraies hanches pour chaque processus métier.


(2) Déclaration de détail:


Après que le processus de service ait été sélectionné, il faut déterminer la taille des particules pour chaque processus métier. Cette table réelle est déterminée. Niveau d'expression détaillé. Nécessité de déterminer la taille des particules pour quatre processus métier, y compris la commande, le paiement et la finition réussie pour sélectionner des détails de l'ordre criminel, ce qui signifie que chaque commande secondaire est une ligne de table réelle, cliquez sur les perles d'acheteurs sont la logistique.

(3) Taille définie:


Après avoir terminé la déclaration détaillée, cela signifie qu'il détermine la clé primaire, la combinaison de la taille correspondante et des champs de taille correspondants peuvent être déterminés, doivent être sélectionnés. Peut décrire les informations de taille de l'environnement où se trouve le processus métier. Lors de la conception de la table d'information de trading du magasin, déterminez la taille, notamment: acheteurs, vendeurs, biens, biens, zones de livraison, Adresse de livraison, ordres des parents et taille divers.


[12) [4) Détermination pratique:

est le noyau des données de processus, la table réelle doit inclure tous les événements liés au processus de description. Obtenez le tableau des informations de trading de la boutique à titre d'exemple, sélectionnez trois processus métier: ordre, payer, succès et différents processus métier avec des vérités différentes. Par exemple, dans l'ordre des commandes, vous devez inclure le montant de la commande, le numéro de commande, le montant de la distribution des commandes;

Après trading Shop Quatre étapes ci-dessus, la table réelle a été formée, comme suit

Lors de la détermination de la taille, elle contient la taille du vendeur, la taille du produit , type, acceptation, etc. KIMBALL DIMENSION DIMENSIONNEMENT DES RECOMMANDATIONS DE THÉORIE DES RECOMMANDATIONS UNIQUEMENT DANS LE TABLEUR EXELLISE, Seulement des serrures étranges de cette table de dimension, mais dans l'application réelle, le nom du magasin, le type de produit, les propriétés de la marchandise, les attributs de catalogue et l'amélioration de la table réelleMéditerranée, améliorant la table réelle. Filtres de la requête de table, réduisez le nombre d'associations entre les tableaux, la requête d'accélération, sont appelées dégradation.
Après l'opération ci-dessus, la carte de travail de conception des problèmes de négociation du magasin a été achevée.


Cinquième gestionnaire, les métadonnées

Les données sont souvent définies comme des "données de données", définies dans les entrepôts de données et de tissus décrivent toutes les informations, manipulation et contenu de la DW / BI système. Les métadonnées traversent tout le cycle de vie des entrepôts de données, en utilisant le développement de métadonnées d'entrepôts de données de conduite pour automatiser les entrepôts de données et la visualisation.


[: Lorsque l'entrepôt de données d'exploitation, l'opération est des métadonnées et des métadonnées divisées en métadonnées techniques et métadonnées commerciales.

Metradata Business sert des analystes de gestion et d'affaires, du point de vue de l'entreprise, y compris les termes, la disponibilité et la signification des données. superLes données commerciales couramment utilisées sont les suivantes: taille et attributs, processus opérationnels, indicateurs et autres définitions standard pour gérer et utiliser de meilleures données. Applications de données de métadonnées, rapports de données, produits de données, etc. Configuration et métadonnées rencontrées.


Les métadonnées techniques désignent les données de développement, de gestion et de maintenance des données, description initiale des informations, description de la conversion, mappage de données, accès, V.V. des données. Métadonnées techniques couramment utilisées est la suivante: emplacement de stockage, modèle de données, table de base de données, longueur de champ, type d'école, script ETL, script SQL, programme d'interface, relation série RAW, etc.
Le stockage des métadonnées est souvent utilisé, un ensemble de données à une seule base, chacun avec le fichier de métadonnées correspondant, chaque autre fichier de métadonnées dans des ensembles de données Super Content est basé sur la base de données, y compris certains articles, chaque fois déterminant les données d'élément.


Six, planification et suiviMission


Dans la construction d'entrepôts de données, il existe de nombreux programmes et devoirs. Par exemple, les tâches de collecte de données, les tâches de synchronisation des données, les tâches de nettoyage des données, les tâches d'analyse des données, V.V. Ces tâches ont une tâche dépendante très compliquée, en plus de l'envoi de temps.


Exemple: Les tâches d'analyse des données doivent attendre que la tâche de collecte de données correspondante puisse être démarrée; Les tâches de synchronisation des données doivent être démarrées après avoir terminé les tâches d'analyse des données; Cela nécessite un système de surveillance et de planification de mission très parfait, qui est le centre, responsable de la planification et de la surveillance de toutes les tâches allouant et fonctionnant.

Actuellement, les entreprises sont susceptibles de constituer leurs propres outils de planification de développement, tels que la Chine Ping an (LinkU), le secteur bancaire contrôlera davantage de M. Certaines sociétés Internet peuvent choisir le flux d'air comme ses propres outils de planification.

Outil NUne utilisation spécifique peut être amarrée dans l'état de la société.


Enfin, selon moi, la construction d'un entrepôt de données est une technologie complète et lorsque des entreprises complexes, cette partie de cet emploi est une équipe spéciale et une entreprise.Se joindre.

Par conséquent, un grand groupe de modèles d'entrepôt de données doit avoir une technologie de modélisation de stockage de données solide et doit avoir une compréhension claire et approfondie des activités réelles menstruelles.




Technique, aussi possible, mais dans le cas possible Le besoin peut être satisfait, plus simple et stable.

Sujets