Si elle est placée il y a dix ans, la construction de l'entrepôt de données est sans aucun doute complètement un ingénieur de développement. Avec le développement et la segmentation de l'entreprise, le responsable de produit a mis en avant des exigences plus élevées, en particulier l'émergence de Le gestionnaire de données du gestionnaire de produits de données, le gestionnaire de produits comprenant la technologie est déjà une tendance générale. Aujourd'hui, nous parlerons au flux de travail pour la construction d'un entrepôt de données, ainsi que du rôle de jeu dans les différents processus de chaque processus.
1 Importance de l'entrepôt de données1.1 Pourquoi construire un entrepôt de données
Ce problème est traduit, que peut-on apporter un entrepôt de données? Valeur. Imaginez, un jour, vous devez analyser quelle vente de produits de base est la meilleure, à ce stade, il est nécessaire de transmettre l'approbation du calque et de développer des données via l'interface via l'interface via l'interface. Il est estimé qu'il y a eu eu Quelques fois, cette efficacité est très faible. Avec l'entrepôt de données, nous pouvons prendre un libre-service pour prendre le numéro, analyser. Le rôle de l'entrepôt de données est la suivante: résumer les données, les données intégrées, les données de traitement et les capacités de sortie finales.
1.2 Produits de données Pourquoi comprendre l'entrepôt de données
L'entrepôt de données est finalement englobé et l'autonomisation doit combiner l'entreprise et l'ingénieur de développement ne se soucie souvent pas de l'entreprise spécifique. Les entrepôts de données complètes qui sont remis au développement d'ingénieurs peuvent ne pas soutenir les entreprises. Cela nécessite des fabricants de données de participer au développement des entrepôts de données et de participer à l'entrepôt de données.
2 Build Data Warehouse
L'architecture de base de l'entrepôt de données est indiquée dans
2. Analyse de la demande numérique
DANS LE GESTION DE PRODUIT DE DONNÉES APRÈS Réception de la demande de données, vous devez analyser cette demande ne peut pas être mise en œuvre, comment la mettre en œuvre, quelles ressources sont nécessaires. Coordonner la planification de la demande, éviter le développement afin de répondre à des besoins spécifiques, essayez de fournir des données plus riches à la rencontre de temps à autre.
2.2 Carte source de données
Le cardage de la source de données est également un travail du produit de données. Il doit être associé à vos sources de données dans l'ensemble de la société et s'efforcer de contenir la source de données. Soutien, comprendre le format de la source de données et la signification. Les sources de données communes ont un système ERP, un système CRM, un système de paiement, etc. Données système internes, ainsi que des données de données comportementales et certaines données de document externes.
2.3 Résumé de la synchronisation des données
Après avoir obtenu le support du porteur de données, synchroniser chaque source de données sur la couche SADS dans l'entrepôt de données, les données de la couche et de la source sont les mêmes, le La couche ODS stocke les données de la source de données à stocker de manière à ce que le problème des données de traçabilité ultérieure. Cette coucheSelon la taille des particules, la taille des particules est la plus fin et que les données stockées dans cette couche présentent la plus longue période.
2.4 MIMIQUE numérique
Le mode de conception de l'entrepôt de données est divisé en deux types: du haut, à partir de bas à, deux modes correspondent à une méthodologie d'Inmon et en mode kimball, respectivement .
2.4.1 Mode Inmon
Inmon est un motif conçu dans le haut, c'est-à-dire des entrepôts de données, puis dérivés de l'entrepôt de données. Marché des données. Les sources de données des entrepôts de données sont souvent hétérogènes. Différentes sources de données correspondent au nettoyage des données de règles différentes et doivent d'abord traiter les données par ETL pour placer la couche d'entrepôt de données, puis combiner des données à la sortie sur le marché des données. Inmon est dirigé par la source de données et les sources de données changeront fréquemment, de sorte que la modélisation de l'entité est plus appropriée pour l'inmon de dimension.
2.4.2 Mode KIMBALL
KIMBALL est un modèle de conception descendant, c'est-à-dire de créer un marché de données, puis résumez à l'entrepôt de données. Source de données. La source de données du mode kimball est souvent quelques tables et la source de données est relativement stable, mais la relation entre la table et la table est toujours triée. Mode KIMBALL Après avoir obtenu les données, la demande de table différente selon la cible est soumise à des exigences de table différentes et l'ETL entre dans la couche d'entrepôt de données et KIMBALL utilise la modélisation de la dimension.
Comparaison Deux modes peuvent être trouvés, Inmon planifie et Kimball est un type heureux. Inmon planifiera à l'avance et la difficulté de développement est plus facile, mais il est relativement facile de développer après le développement. KIMBALL met l'accent sur la prochaine demande de la demande ultérieure, de sorte que Kimball peut rapidement répondre aux besoins, adapté au développement agile, et le problème causé par les dimensions ultérieures est relativement difficile. La demande dans l'industrie de l'Internet est souvent changée rapidement, de sorte que Inmon n'est pas facile de passer de manière vigoureuse à atteindre beaucoup d'importance, et le contraire de Kimball ne considère pas une conception complexe excessif pour l'architecture d'entrepôt de données, il semble irrégulier mais il est très pratique d'utiliser le mode traditionnel de la modélisation de la société Internet.
2.5 ETL
Le travail d'ETL traversera l'établissement de l'ensemble de l'entrepôt de données. ETL est une référence aux données sur les données. Il fait référence aux données extraites dans la base de données relationnelle et convertit les données de différentes sources de données par des règles et finalement chargées dans l'entrepôt de données. Dans cette série d'opérations, le format de données des métadonnées, l'orthographe, le champ en excès et la valeur manquante seront dispersés, zéro, standardLes données quasi-non uniformes sont intégrées pour rendre les données permettant de charger les données dans l'entrepôt de données.
2.6 Couches d'entrepôt de données
Les données stockées dans la couche ODS ne sont évidemment pas utilisées directement et il doit être traité par couche. Si vous calculez une variété d'indicateurs dans une étape de la place, il sera nécessaire de se développer à nouveau lorsque vous modifiez les modifications de l'entreprise, de sorte que la superposition de l'entrepôt de données est nécessaire. Les couches d'entrepôt de données ont les avantages suivants:
1 Support Multiplex:
Les données sont effectuées dans chaque couche, conservant un grand nombre de données de couche intermédiaires, les changements d'entreprise futurs Il est temps de ré- Calculez à partir des données de couche intermédiaire existantes sans besoin de poids, il est grandement réduit;
2 Facile à gérer:
peut être vu par hiérarchical Les données sont transférées dans tout l'entrepôt,qui est pratique pour saisir le cycle de vie des données et chaque couche est responsable des tâches spécifiques, qui convient aux utilisateurs de comprendre.
L'entrepôt de données est généralement divisé en trois couches suivantes: DWD, DWM, DWS. Les fonctions de chaque couche sont les suivantes:
Données graduées: DWD (Data Warehouse Détail)
La couche DWD est directement en contact avec la couche ODS, les données de la couche ODS sont après l'ETL Le flux de cette couche, qui est généralement maintenu comme couche ODS. Le travail principal de la couche DWD présente les points suivants:
1 Assurance qualité des données:
La valeur anormale de la couche SAO, manque de valeur, etc. Un problème de données est résolu dans cette couche, en fonction de la SITUATION SPÉCIFIQUE CORRECTION DES DONNÉES OU SUPPLÉMENTATION DISTRIBULES DE DISPOSITION
2 DÉGRADATION DE DIMENSION:
Dans le même temps, il est nécessaire de commencer à préparer les données ultérieures, la table de modélisation de la dimension précédente et Une utilisation ultérieure dimensionnelle doit être associée à un grand nombre de tables de dimension de table, apparemment efficaces, est très faible. Dans la couche DWD, certaines dimensions sont dégradées à la table des faits pour réduire l'association, c'est-à-dire que la pesée est associée, qui est proposée à être utilisée à l'avance au suivi;
3 Données Agrégation:
Source de données de la couche ODS Divers, certaines données appartiennent au même sujet, mais la source est différente, existait donc dans différentes tables, il est nécessaire de résumer les données de différentes sources mais appartiennent à la même chose. sujet à la même table.
(2) Couche intermédiaire de données: DWM (Warehouse de données Milieu)
Le rôle de la couche DWM est d'effectuer une agrégation de données, c'est-à-dire certains indicateurs publics, générer une série de tables intermédiaires , Les utilisateurs ultérieurs pratiques à prendre directement, le nombre de cette coucheSelon l'agrégation, la dimension plus fine est réservée. Cette couche dépend de l'entreprise spécifique et si l'entreprise est relativement simple, cette couche n'est pas nécessaire.
(3) COUCHE DE SERVICE DE DONNÉES: DWS (SERVES ENTREPÔT DE DATA)
DWS Layer est le mage de données ou une grande largeur de nos données bien connues. Cette couche résume les données de l'indicateur de couche DWM pour générer une grande table de largeur dans certains champs, de sorte que chaque indicateur est placé dans une table, qui convient à l'utilisateur de prendre des calculs de la table. Puisque tous les indicateurs sont fusionnés dans une table, le tableau de la couche DWS ne sera pas trop, une table contient plus de contenu commercial et l'intégration d'indicateurs multi-indicateurs est également destinée à avoir la dimension de la couche DWS. Il n'y a pas de Trop. Certaines des dimensions couramment utilisées communes à tous les indicateurs sont conservées. Le diagramme de flux de la couche DWM à la couche DWS est la suivante:
après les données DWD, DWM, DWS à trois couches, est-il possible de rencontrer tous les besoins? Évidemment, il est impossible, les exigences suivantes ne sont pas satisfaites:
1 Habituellement, la plupart des besoins de données peuvent prendre directement à partir de la couche DWS, mais il y aura une demande de soutien de la couche DWS. Non, cette fois-ci besoin de calculer les données de la couche DWS ou des données DWM, DWD pour répondre aux besoins;
2 Utilisation des données Nous faisons attention aux données à trois couches en temps réel, sont généralement stockées dans une comparaison Les supports de stockage à faible coût, tels que l'utilisation de la ruche, il n'est évidemment pas de respecter nos besoins en temps réel de l'enquête d'analyse. Il est nécessaire de charger des données avec des besoins en temps réel pour prendre en charge l'acquisition de la requête en temps réel.
En résumé, le rôle de la couche de partage de données est de prendre en charge la nécessité d'une architecture à trois couches afin de répondre aux besoins et d'améliorer les performances de la base de données et de fournir des services unifiés.
2.8 Données Demande en temps réel
L'architecture à trois couches est incapable de prendre en charge les exigences de calcul en temps réel. Il existe donc une structure en temps réel de synchronisation en temps réel , Pratique générale. C'est la source de données de synchroniser le moteur de calcul en temps réel par Kafka, puis calculez les résultats dans le moteur de calcul tel que Spark Street ou FLINK, stocké dans une base de données de requête efficace, telle que HBASE.
3 Capacité et responsabilité de produits de données
3.1 Responsabilités
À travers les procédures ci-dessus, nous pouvons savoir que les produits de données construisent des entrepôts de données. Le travail principal est:
1 Exigences de données Evaluation et analyse d'analyse;
2 Card de la source de données, EtriveÀ la coopération des frères, la source des données de planification unifiées est dérivée
3 modélisation de données par conséquent, le fait que la production finale n'est pas nécessairement une table physique d'atterrissage spécifique, et seuls les faits sont donnés à Le développement et le formulaire spécifique est déterminé par la décision de développement;
4 Déterminez la logique de traitement des données, les données de la couche ODS sont synchronisées à la couche DWD pour effectuer ETL, comment traiter certaines valeurs d'exception. Ou des valeurs manquantes nécessitent des fabricants de données négocient avec le côté des entreprises pour développer la logique de traitement;5 Logique de traitement de l'architecture à trois couches, quels indicateurs doivent traiter quels indicateurs de la couche DWM doivent être dans DWS Le traitement des couches et les dimensions doivent être conservés, ils ne peuvent pas déterminer, nécessiter des produits de données en fonction de la demande du côté métier constituent un plan unifié et l'objectif ultime est d'accroître la facilité d'utilisation, la richesse et l'évolutivité des entrepôts de données.
6 Flux de traitement entier et une utilisation ultérieure des données, nécessitent un produit de données pour assurer la qualité des données, la qualité des données nécessite de garantir une précision en temps réel, et ne peut pas être garantie dans l'entrepôt de données aujourd'hui.
Du travail de produits de données, il n'est pas difficile de voir que l'entrepôt de données de construction est la plus grande difficulté des gestionnaires de produits, il est nécessaire comprendre la technologie de données importante et un plan de plan numérique. Besoin de comprendre la construction d'une architecture bin, sachez comment les données circulent dans le numérique et comprennent que la technologie pouvant être utilisée à chaque place. Les composants de données courants comprennent la ruche, l'Impala, le HBase, Hadoop, Spark, Flink, Redis, ES, Kafka, SQOP, etc. Quelles sont les caractéristiques de chaque composant, il est préférable de l'utiliser.