Data Warehouse Line: Méthode de décentralisation des magasins de données générales

1. Couche de données

"Pourquoi voulez-vous concevoir des couches de données?"

Ce doit être un camarade de classe la première chose à contester lors de la conception des données stratifiées, de nombreux problèmes, tels que "Pourquoi voulez-vous effectuer des données d'entrepôt?", "Pourquoi je veux gérer les métadonnées? "," Pourquoi voulez-vous gérer la qualité des données? " Bien sûr, ici, nous ne parlons que de la question de la couche de données de conception.

est un outil de planification de données, nous devons espérer que vos données peuvent être modifiées et que tout le cycle de vie de données peut être des concepteurs et des utilisateurs et des personnes qui sont clairement clairement connues sous le nom de concepteurs et d'utilisateurs clairement connus. Intuitif, le tableau de gauche suivant est clair et dépend de la relation.

Cependant, dans la plupart des cas, le système de données que nous avons terminé est très compliqué et le niveau de confusion. Comme indiqué dans la bonne image, il estG Nous pouvons créer des structures de confusion en fonction de la table et même d'un système de données dépend de la boucle.

Par conséquent, nous avons besoin d'un ensemble de méthodes efficaces de gestion des données et d'organisation pour rendre notre système de données plus ordonné, il s'agit du service de données fixe. Sol. Toutefois, les couches de données ne résolvent pas tous les problèmes de données qui peuvent nous apporter les avantages suivants:

1. Supprimer la structure de données: chaque niveau de données avec des rôles et des responsabilités de nom de domaine peut être plus pratique pour localiser et comprendre Lors de l'utilisation du tableau

2, Développement répété réduit: Normalisez les couches de données, développant des données de classe intermédiaires universelles, ce qui peut réduire le calcul répétitif incroyable

3, calibre unifié. Données: fournit le meilleur système systématique du système de sortie, un flux de sortie de sortie unifié

4, le problème complexe est très simple: décompose une tâche complexeSuccès dans de nombreuses étapes à suivre, chaque classe résout un problème spécifique

II, une conception de hiérarchie générale de données

]

Pour répondre aux avantages de la stratification des données, nous avons divisé les données Modèle en trois couches: activité de données (SAO), Warehouse de données (DW) et classe d'applications de données (application). Comme indiqué ci-dessous. En outre, nous pouvons comprendre que ** ODS Couche stocke les données d'origine d'origine, la classe DW est des données de couche intermédiaires stockées dans l'entrepôt de données, nous devons nous concentrer sur et que l'application est l'utilisation des données correspondante utilisez une entreprise personnalisée. ** Introduction détaillée Ce qui suit est des détails détaillés.

1. Données de fonctionnement: ODS (stocker des données actives)

"Rubrique", la couche de fonctionnement des données, également appelée classe ODS, est la couche de données d'abord dans la source de données, des données du Source de données, après taraudage, lavage, transfert, après la légende etl, téléchargez cette classe. Les données de cette classe sont principalement classées par des méthodes de tri du systèmeService source.

En général, envisager la possibilité de problèmes de suivi ultérieurs, n'effectuez pas trop de travaux de nettoyage de données, de ne pas accéder aux données d'origine, telles que la sécurité, le poids, la manipulation de la valeur anormale, etc. peut être fait dans la couche DWD derrière.

2. Warehouse de données: DW (entrepôt de données)

Data Warehouse Class est une classe de conception de base lorsque nous effectuons des entrepôts de données, ici, de la classe ODS, la collecte de données est définie pour correspondre au problème. La classe DW est divisée en classe DWD (détails de l'entrepôt de données), classe DWM (stockage de données) et DWS (service de stockage de données).

(1) Classe de classification des données: DWD (Détails de l'entrepôt de données)

Les classes sont généralement conservées comme des détails de données telles que la classe ODS et fournissaient une certaine qualité de données. Dans le même temps, pour améliorer la facilité de données des données, cette classe utilise des techniques de décomposition de taille pour réduire la taille dans la table réelle, réduire la relation entre leBalles et taille.

En outre, dans cette classe, une synthèse de données sera collectée dans une table et les données appliquées et les suivantes seront expliquées.

(2) Données de couche intermédiaires: DWM (entrepôt de données entre)

sur la base des données de la classe DWD, des données légères vers des données. Créez une variété de tables d'intermédiaires pour améliorer la réutilisation des indicateurs publics, réduire la manutention répétitive.

La liciologie est une synthèse générale de taille de base, calculant les indicateurs de statistiques correspondants.

(3) CLASSE DE SERVICE DE DONNÉES: DWS (Service de stockage de données)

est également appelé marché de données ou une carte large. Selon la division des entreprises, telle que la circulation, les commandes, les utilisateurs, V.V., créez plusieurs tables de largeur pour les prochaines requêtes d'entreprise, Analyse OLAP, Distribution des données, V.V. [12.3]

En général, la fiche de données de la classe sera relativement relative, une table comprendra plus de contenu commercial, car il y a nDe nombreux champs, il est souvent appelé le tableau de la surface de la classe.

Dans les calculs réels, si l'indicateur statistique de la table de largeur directement à partir de DWD ou de SAO, il y a un problème que la quantité de calcul est trop grande et la taille est trop petite que la pratique générale est en la classe DWM. Certaines des petites tables intermédiaires sont calculées en premier, puis jumelées dans la table de largeur DWS. En raison des limites de la largeur et de la limite étroites, vous pouvez supprimer cette couche DWM, laissez simplement la couche DWS, mettez toutes les données dans DWS.

3. Couche d'application de données: application (application)

Ici, il est principalement prévu pour les produits de données et l'analyse des données, souvent enregistré Store dans ES, PostgreSQL, Redis Systems sont utilisés dans des systèmes Le système, et il peut y avoir une analyse de données et une exploitation minière de données dans la ruche ou la druide. Par exemple, signaler les données que nous disons souvent est souvent placée ici.

4. Taille

Enfin, la surface de la taille est ajoutée et la taille de la taille du propriétaireS'il y a deux parties:

(1) Taille de base élevée Données: généralement une feuille d'informations utilisateur, un modèle de produit similaire à des informations sur le produit. La quantité de données peut être des dizaines de millions ou de centaines de millions de milliards.

(2) Données à faible taille cardiaque: généralement une table de configuration, telle que la signification chinoise correspondant à la valeur répertoriée ou à un jour après-midi. La quantité de données peut être des bits ou des dizaines de milliers.

À ce stade, nous avons terminé la signification de chaque couche de la hiérarchie de données, qui est un résumé à comprendre, comme indiqué ci-dessous.

Marcry, Chestnut

Donner une explication de châtaignier, comme indiqué ci-dessous, il peut être considéré comme un système de données de site Web de commerce électronique . Nous faisons attention uniquement au journal d'accès utilisateur.

1, dans la classe ODS, le journal d'accès de l'utilisateur est divisé en groupes SAO multicouchesSe développer différemment à chaque extrémité ou de nombreux autres problèmes.

2, pour faciliter les personnes à utiliser, nous avons mis en place un utilisateur pour accéder aux pièces comportementales de la classe DWD. Ici, nous apporterons votre site de votre site PC, H5, de votre applet et d'origine d'origine pour vous connecter à la table de table, le nom de champ unifié, améliorer la qualité des données, de sorte que les tables de modification de la liste des personnes à utiliser.

3, dans la classe DWM, je choisirai la taille essentielle des préoccupations commerciales de la catégorie DWD pour effectuer des activités synthétiques, telles que pour les personnes, les biens et les équipements et la taille de la zone de site. De même, nous avons fait beaucoup de planches intermédiaires DWM

4, puis dans la classe DWS, nous mettons une personne dans une table dans le comportement de l'ensemble du site Web, c'est notre vaste planche. Tableau, vous pouvez rapidement répondre aux besoins commerciaux les plus universels.

5, enfin, dans la classe d'application d'applicationG, les données sont introduites dans une table d'application à partir d'une ou plusieurs tables de classe DWS au besoin.

Remarque: L'exemple est simplement d'expliquer le rôle de chaque classe, pas la solution la plus raisonnable, tout le monde peut mesurer la méthode.

car il s'agit de décentralisation des données, les calculs et les systèmes de stockage sont utilisés à des niveaux, des pièces simples à partager. Le stockage de la couche de données en général est le suivant: 1, source de données: la source de données est généralement une bibliothèque d'affaires et un quai, bien sûr, il y a un tiers de données d'achat de parti. Mode source. Stocker les bibliothèques d'affaires est généralement MySQL et PostgreSQL. 2, classe ODS: SOYS est généralement énorme, la plupart des entreprises choisiront HDFS, nommément ruche ou hbase, Hive. 3, classe DW: stockage général et SAO, mais pour répondre plus à des exigences, il existe également une affaire stockée dans PG et ES. 4, couche d'application: données de données d'applicationUtilisez souvent des commentaires relativement rapides, il est donc généralement placé dans MySQL, PG, Redis. Calcul du moteur, vous pouvez simplement vous référer aux lignes répertoriées dans l'image. Actuellement, les mises à jour techniques des grandes données sont rapides et cette section est répertoriée simplement une référence simple. Jeudi, pensant Quel est le principe de penser et de synthétiser des hiérarchies de données? Pourquoi cette hiérarchie est-elle? Quelle est la limite entre chaque classe? J'ai personnellement compris la division des données de ces points de vue: 1. Du soutien de l'application, nous espérons obtenir le niveau suivant, affiliation amitié plus utile. Par exemple, la couche d'application est essentiellement complètement conçue, facile à comprendre, la classe DWS, relativement, aura une compréhension peu du coût, puis les classes DWM et DWD sont plus difficiles à comprendre, car elles l'ont davantage et une demande peut avoir de nombreuses tables complexes. Finir. 2, de la gamme de capacités, nous espérons que 80% du soutien est soutenuBash de 20% de la table. Directement, ce sont les besoins les plus (plus de 80%), à l'aide de tables DWS à prendre en charge, DWS ne peut pas prendre en charge, à l'aide de tables DWM et DWD à prendre en charge, toutes ces caractéristiques sont très prises en charge que la section de données nécessite le journal d'origine. Combinée avec le premier point, il s'agit de: 80% de la demande, nous souhaitons tous appuyer une application très amicale, au lieu de diriger le journal d'origine du journal d'origine. 3, du niveau de synthèse des données, nous espérons que la synthèse des données des données, par exemple, les données de SAO et DWD sont essentiellement une signature originale de taille des grains japonais, ne font pas d'ensembles, DWM a un Activité de synthèse légère qui conserve uniquement la taille générale, DWS a une activité synthétique plus élevée, ne peut conserver que des descriptions de courant de tissu possible à deux dimensions. De ce point de vue, nous pouvons comprendre que nous sommes divisés par des niveaux de synthèse de données. 6, Résumé La conception de la couche de données doit également être transmise à certaines façons de noms de donnéesRéfléchissez, le noyau de cet article est d'expliquer les pensées et les méthodes de la couche de données, suivies d'articles distincts pour partager la manière dont les fiches de données nommées sont conçues sur la base de couches de données.

Sujets

Les données

Catégories

Plate-forme intermédiaire de données