Si cela est mis il y a 10 ans, l'entrepôt de données n'a pas été complètement la vie des ingénieurs de développement. Avec le développement et la segmentation de l'entreprise, les responsables de produits ont mis des exigences plus élevées, en particulier les fabricants de données. L'émergence de postes Les responsables de produits comprennent la technologie est déjà une tendance générale.
Aujourd'hui, nous parlerons au flux de travail pour la construction d'un entrepôt de données, ainsi que du rôle de jeu dans les différents processus.
1. L'importance de l'entrepôt de données
1. Pourquoi créer un entrepôt de donnéesCe problème est traduit et quelle valeur peut-elle nous donner l'entrepôt de données.
Imaginez, un jour, vous devez analyser quelle vente de produits de base est la meilleure, à ce stade, il est nécessaire de transmettre l'approbation du calque et de développer des données via l'interface dans chaque système, estimation. À ce stade Je suis passé quelques jours, donc cette efficacité est très faible; et il y a un entrepôt de données, nous pouvons prendre un buffet, analyser.
Le rôle des entrepôts de données est le suivant: Résumez les données, les données intégrées, les données de traitement et les capacités de sortie finales.
. Entièrement, l'entrepôt de données développé par le développement d'ingénieurs peut ne pas soutenir les entreprises; cela nécessite des gestionnaires de produits de données pour participer au développement des entrepôts de données et de participer à l'entrepôt de données. II. Construction de l'entrepôt de donnéesL'architecture de base de l'entrepôt de données est indiquée dans
1. Analyse de la demande numérique
Données après Recevoir la demande des données, le produit doit analyser cette demande ne peut être mis en œuvre, comment atteindre, quelles ressources doivent être nécessaires; pour la demande de planification globale, évitez de développer pour atteindre des besoins spécifiques, essayez de répondre aux besoins du temps. 2. Carte source de données
Le peignage de la source de données est également un travail du produit de données. Il doit faire fonctionner vos sources de données dans l'ensemble de la société et s'efforcer de contenir la source de données. Support , comprenez le format et la signification de la source de données.
Les sources de données communes comprennent des données système internes, des systèmes CRM, des systèmes de paiement, etc ainsi que des données de données comportementales et certaines données de document externes. 3. Résumé de la synchronisation des donnéesAprès avoir obtenu le support du titulaire de données, synchroniser les sources de données à la couche SAO dans l'entrepôt de données, les données de la couche et de la source sont organisées, c'est-à-dire stocker les données de la couche SAO à stocker la source de données pour les données de traçabilité ultérieures; cette couche de données est la meilleure,Et cette couche de données est plus longue.
4. Entrepôt de donnéesL'entrepôt de données est divisé en deux types: de haut en bas, la méthodologie correspondant aux deux modes est en mode Inmon et en mode kimball, respectivement.. 1) Mode Inmon
Inmon est un modèle de conception de fond auto-fond, c'est-à-dire de la construction d'un entrepôt de données et d'avoir dérivé un marché de données d'un entrepôt de données.
Les données de données de données sont souvent hétérogènes, différentes sources de données correspondent au nettoyage des données de règles différentes, doivent d'abord procéder aux données permettant de mettre les données dans la couche d'entrepôt de données, puis de combiner des données à la sortie des données. étage de marché nécessaire. Inmon est dirigé par la source de données et la source de données changera fréquemment, de sorte que la modélisation de l'entité est plus appropriée pour l'inmonication par rapport à la modélisation de la dimension.2) Mode KIMBALL
KIMBALL est un modèle de conception descendant, c'est-à-dire de créer un marché de données, puis de résumer à l'entrepôt de données à la source de données.
La source de données du mode kimball est souvent quelques tables et la source de données est relativement stable, mais la relation entre la table et la table est toujours à venir. Mode KIMBALL Après avoir obtenu les données, la demande de table différente selon la cible est soumise à des exigences de table différentes et l'ETL entre dans la couche d'entrepôt de données et KIMBALL utilise la modélisation de la dimension.
Comparaison Deux modes peuvent être trouvés, Inmon planifie et Kimball est un type heureux. Inmon planifiera à l'avance et la difficulté de développement est plus longue, mais une fois que le développement est relativement facile.
Kimball souligne la prochaine demande de la demande ultérieure, alors Kimball peut rapidement répondre aux besoins, adapté au développement agile et le problème causé par le problème est que la dimension ultérieure est difficile; la demande dans l'industrie de l'Internet est souvent changée,alors inmon n'est pas facile de dépenser de gros efforts pour atteindre beaucoup d'importance; le kimball opposé ne considère pas une conception complexe excessive à l'architecture de l'entrepôt de données, il semble être non réglementé, mais il est très pratique et il est devenu Internet modèle d'entreprise. Mode grand public.
5. ETLLe travail d'ETL traversera la création de l'ensemble de l'entrepôt de données.
L'ETL est désigné comme des données pour l'extraction, la conversion et le chargement des données; il fait référence aux données dans des bases de données relationnelles et convertit les données de différentes sources de données conformément aux règles et finalement chargées dans des données. Entrepôt.
Dans cette série d'opérations, le format de données des métadonnées, l'orthographe, le champ en excès et la valeur manquante seront intégrés et les données sont dispersées, zéro et la norme n'est pas unifiée. Atteindre la norme pour être chargé dans l'entrepôt de données.
6. Date de superposition de l'entrepôt de données
Les données stockées dans la couche ODS ne sont évidemment pas utilisées directement, et il est nécessaire de passer la couche de couche; si une étape est calculée pour calculer les futurs changements commerciaux, il sera Démarrez à nouveau développé une fois, la superposition de l'entrepôt de données est nécessaire.
Les couches d'entrepôt de données ont principalement les avantages suivants: Support Multiplex: Les données sont effectuées sur chaque couche, conservant beaucoup de données de couche intermédiaires, lorsque l'entreprise est modifiée, elle peut être recalculée à partir de la couche intermédiaire existante. données sans besoin de poids, il est très réduit;Facile à gérer: on peut le voir à travers la hiérarchie dans toute la hiérarchie, pratique de maîtriser les données du cycle de vie, chaque couche est responsable de responsabilités spécifiques, qui convient aux utilisateurs de comprendre.
L'entrepôt de données est généralement divisé en trois couches suivantes: DWD, DWM, DWS. Les fonctions de chaque couche sont les suivantes:
1) Couche de classement des données: DWD (DWD (Data Warehouse Détail)
La couche DWD est directement en contact avec la couche SAO et les données de la SAO La couche est écoulée à la couche après ETL. Généralement maintenu la même granularité de données que la couche ODS.La tâche principale de la couche DWD a les points suivants:
1 Assurance de la qualité des données
Valeur d'exception de la couche ODS, valeur manquante, etc. Problème de données résout cette couche,Correction des données ou supplémentation de la correction des données ou des valeurs par défaut supplémentaires ou jetez directement.
2 Dégradation de la dimensionDans le même temps, il est nécessaire de commencer à préparer des données ultérieures et la dimension de table de fait de la modélisation de la dimension précédente et de la table de dimension nécessitent de nombreuses dimensions de la table. Les associations de table, l'efficacité évidente est très faible; dans la couche DWD dégrada certaines dimensions de la table des faits pour réduire l'association, c'est-à-dire que chaque dimension est proposée à l'avance au suivi.
3 Agrégation de données
La source de données de la couche ODS est largement utilisée et certaines données appartiennent au même sujet, mais il y a des sources différentes, il y a une source différente, mais elle est nécessaire à la Les données résumées dans le même sujet sont résumées dans la même table.
2) Données Couche intermédiaire: DWM (Warehouse de données Milieu)Le rôle de la couche DWM consiste à effectuer une agrégation de données, c'est-à-dire de calculer certains indicateurs publics, génère une série de tables intermédiaires, ce qui est Pratique pour les utilisateurs ultérieurs. Prenez directement, l'agrégation de données de cette couche conserve des dimensions plus fines; cette couche est déterminée en fonction de l'entreprise spécifique, et si l'entreprise est relativement simple, cette couche n'est pas requise.
3) COUCHE DE SERVICE DE DONNÉES: DWS (SERVES ENTREPÔT DE DATA)
DWS Layer est le marché des données ou la grande table de largeur que nous sommes bien connus.. Cette couche résume les données de l'indicateur de couche DWM pour générer une grande table de largeur dans certains champs, de sorte que chaque indicateur est placé dans une table, qui convient à l'utilisateur de prendre des calculs de la table.
Étant donné que tous les indicateurs sont fusionnés dans une table, le tableau de la couche DWS ne sera pas trop, et une table contient plus de contenu de l'entreprise et l'intégration d'indicateurs multi-indicateurs est également destinée à la fiche technique de la couche DWS. La dimension ne sera pas trop, seules certaines des dimensions couramment utilisées de chaque indicateur.
Le schéma d'écoulement de la couche DWM à la couche DWS est la suivante:
7. La couche de partage de données
a des données DWD, DWM, DWS à trois couches, peut Vous répondez à tous les besoins? Évidemment, il est impossible, les exigences suivantes ne sont pas satisfaites:
1 Habituellement, la plupart des besoins de données peuvent prendre directement à partir de la couche DWS, mais il y aura une demande de soutien de la couche DWS. Ne peut pas, cette Il vous suffit de calculer des données de couche DWS ou de DWM, DWD Data pour répondre à la demande;
2 Données Nous faisons attention aux données en temps réel, les données à trois couches sont généralement stockées dans un stockage bon marché sur le support, si Vous êtes stocké à l'aide de la ruche, il n'est évidemment pas de répondre à nos besoins en temps réel de la requête d'analyse, vous devez charger des données avec des besoins en temps réel pour prendre en charge l'acquisition de requêtes en temps réel.
En résumé, le rôle de la couche de partage de données est de prendre en charge la nécessité d'une architecture à trois couches afin de répondre aux besoins et d'améliorer les performances de la base de données et de fournir des services unifiés.8. Demander la demande en temps réel
L'architecture à trois couches est incapable de prendre en charge les exigences de calcul en temps réel. Il existe donc une structure qui nécessite un calcul en temps réel de synchronisation en temps réel, Et la source de données est synchronisée simultanément par Kafka. Calculez le moteur, puis calculez le résultat dans un moteur de calcul tel que Spark Streaming ou FLINK, Stockez dans une base de données de requête efficace, telle que HBASE.
3. Capacité et responsabilités du produit de données
1. Dut du processus
Dans le processus ci-dessus, nous pouvons savoir que les tâches principales de la construction des entrepôts de données sont les suivantes:
1 Évaluation de l'amarrage et de l'analyse de la demande de données.
2 Carte source de données, s'efforce de coopérer avec le département Brother et la source de données de planification unifiées se déroule. 3 Modélisation de données, modélisation des données conformément à l'activité existante, décrivant le processus métier avec des indicateurs et des dimensions, ce travail doit être familier avec l'entreprise, de sorte que le non-produit est unique, la production finale, le fait Tableau et la dimension Le tableau n'est pas nécessairement une table physique d'atterrissage spécifique, juste une main sur les faits et les dimensions, comment mettre en œuvre la table du corps est déterminée par le développement. 4 Déterminer la logique de traitement des donnéesLes données de la couche ODS sont synchronisées sur la couche DWD pour faire ETL, comment gérer certaines valeurs d'exception ou des valeurs manquantes, obligeant les gestionnaires de produits de données à négocier avec le côté de l'entreprise, puis synchronisez simultanément la logique de traitement.5 Logique de traitement de l'architecture à trois couches à trois couches, quels indicateurs doivent traiter quels indicateurs de couches DWM doivent être dans le traitement de la couche DWS et que chacune des dimensions doit être conservée, celles-ci sont indicibles, nécessitant des produits de données en fonction de l'utilisation des entreprises. Les exigences de la planification unifiée, l'objectif ultime est d'accroître la facilité d'utilisation, la richesse et l'évolutivité des entrepôts de données.
6 Flux de traitement entier et une utilisation ultérieure des données, nécessitent un produit de données pour assurer la qualité des données, la qualité des données nécessite de garantir une précision en temps réel, et ne peut pas être garantie dans l'entrepôt de données aujourd'hui.Durée des produits de données, il n'est pas difficile de constater que l'entrepôt de données de bâtiment est la plus grande difficulté des gestionnaires de produits, il est nécessaire de comprendre la technologie de données importante et la planification numérique.
Besoin de comprendre la construction d'une architecture numérique, sachez comment les données circulent au numérique et comprennent que la technologie pouvant être utilisée à chaque endroit; des composants de données courants ont une ruche, Impala, HBase, Hadoop, Spark , FLINK, REDIS, ES, KAFKA, SQOP, etc faites ce que fait chaque composant, quelles sont les caractéristiques, il est préférable de l'utiliser.