Méthode de classification générale des magasins de données
1. Vue d'ensemble
Les couches de données sont une partie très importante de la conception de l'entrepôt de données, une excellente conception de la hiérarchie permet à toutes les données du système de comprendre et d'être utilisées. La plupart des réseaux actuels peuvent être récupérés dans des articles connexes, désignez simplement la conception des couches de données ou l'absence de descriptions claires et détaillées, ou de manque de divulgation, ou d'absence d'exemples spécifiques.
Par conséquent, cet article indiquera une méthode de décentralisation d'entrepôt de données générale qui comprend les manières suivantes:
1, action de la couche de données de selles
2, a proposé un Données générales Conception hiérarchique, ainsi que les principes de la conception hiérarchique
3, montrant des exemples spécifiques
4, des suggestions peuvent être réduites [
des données de couchage ?
"Pourquoi voulez-vous concevoir des couches de données?"
Cela doit être une question où les camarades de classe doivent être difficilesSouhaite lors de la conception de couches de données, il existe de nombreux problèmes. Par exemple: "Pourquoi voulez-vous un entrepôt de données?", "Pourquoi est-ce que je veux gérer des métadonnées?", "Pourquoi voulez-vous gérer la qualité des données?". Bien sûr, ici, nous ne parlons que de la question de la couche de données de conception.
est un outil de planification de données, nous devons espérer que vos données peuvent être modifiées et que tout le cycle de vie de données peut être des concepteurs et des utilisateurs et des personnes qui sont clairement clairement connues sous le nom de concepteurs et d'utilisateurs clairement connus. Intuitif, le tableau de gauche suivant est clair et dépend de la relation.
Cependant, dans la plupart des cas, le système de données que nous avons terminé est très compliqué et le niveau de confusion. Comme indiqué dans la bonne image, nous pouvons créer la confusion de la structure en fonction de la table et même un système de données dépend de la boucle.
Par conséquent, nous avons besoin d'un ensemble de méthodes de gestionEt organiser des données efficaces pour rendre notre système de données plus ordonné, il s'agit du système de hiérarchie de données. Toutefois, les couches de données ne résolvent pas tous les problèmes de données qui peuvent nous apporter les avantages suivants:
1. Supprimer la structure de données: chaque niveau de données avec un nom de domaine et une responsabilité peut être plus pratique de localiser et de comprendre Lorsque vous utilisez
2, réduisant le développement de répétition: Normalisez les données de superposition, développez une donnée universelle de classe intermédiaire, peut réduire les calculs répétitifs étonnants
3, Données uniformes de calibre: par la classification des données, fournissant des données Sockets Unified et unifié Données de sortie
4, Problèmes complexes Simplifiés: Décomposez une tâche complexe à de nombreuses étapes à compléter, chaque étape d'un problème résout un problème spécifiquement
Troisième design de hiérarchie générale
Pour répondre aux avantages de la hiérarchieAllons-nous diviser le modèle de données en trois couches: activité de données (ODS), entrepôt de données (DW) et couche d'application de données (application). Comme indiqué ci-dessous. En outre, nous pouvons comprendre que ** ODS Couche stocke les données d'origine d'origine, la classe DW est des données de couche intermédiaires stockées dans l'entrepôt de données, nous devons nous concentrer sur et que l'application est l'utilisation des données correspondante utilisez une entreprise personnalisée. ** Introduction détaillée Ce qui suit est des détails détaillés.
1, Classe d'activité de données: SAO (stockage de données d'exploitation)
En général, envisager la possibilité des prochains problèmes de données de suivi, ne devrait pas effectuer trop de produits de nettoyage de données LContre, pour ne pas accéder aux données originales, telles que la sécurité, le poids, la manipulation de la valeur anormale, etc. peuvent être effectuées dans la couche DWD derrière.
2, Data Warehouse Class: DW (entrepôt de données)
1, Classe de classification des données: DWD (Data Warehouse Détails)
Les classes sont généralement détenues sous la forme de détails de données telles que la classe ODS et fournissent une garantie de qualité certaines données. Dans le même temps, pour améliorer la facilité de données des données, cette classe utilise des techniques de décomposition de taille pour réduire la taille dans la table réelle, réduire la relation entre événements et tailles.
De plus, dans cette classe, une partie de la synthèse des données sera utilisée et les données du même sujet sont collectées dans le tableau et la disponibilité du LJe suis amélioré et ce qui suit sera expliqué.
2, Données intermédiaires de la classe: DWM (entre l'entrepôt de données)
Cette classe créera des activités synthétiques légères sur la classe DWD, créant ainsi une série d'intermédiaires, améliorant la réutilisation des indicateurs publics et réduira traitement répété.
Invisible, est la coïncidence de la taille de base générale, calculant les indicateurs de statistiques correspondants.
3, Classe de service de données: DWS (service de stockage de données)
est également appelé données ou largeur de la largeur. Selon la division des entreprises, telle que la circulation, les commandes, les utilisateurs, V.V., créez plusieurs tables de largeur pour les prochaines requêtes d'entreprise, Analyse OLAP, Distribution des données, V.V. En règle générale, la fiche de données de cette classe sera relativement relativement relativement et le tableau comprendra plus de contenu commercial, souvent appelé table de largeur de table.
Dans les calculs réels, si les indicateurs statistiques de la table de largeur directement à partir de DWD ou de SAO, il y a un problèmeIl est important que la quantité de calcul soit trop grande et la taille est trop petite, la pratique générale est donc dans la classe DWM. Certaines des petites tables intermédiaires sont calculées en premier, puis jumelées dans la table de largeur DWS. En raison des limites de la largeur et de la limite étroites, vous pouvez supprimer cette couche DWM, laissez simplement la couche DWS, mettez toutes les données dans DWS.
3, Classe d'application de données: application (application)
Ici, principalement pour fournir des données pour les produits de données et l'analyse des données, des systèmes généralement stockés utilisés dans ES, PostgreSQL, Redis et d'autres systèmes, ou Peut exister dans la ruche ou la druide d'analyser les données et l'exploitation minière des données. Par exemple, signaler les données que nous disons souvent est souvent placée ici.
4, Taille
Enfin, une surface de taille est ajoutée et la surface de taille principale est composée de deux parties:
de taille haute: généralement des utilisateurs de conseils d'information, d'informations de produit similaires aux échantillons de produits. Nombre de données avec tC'est des dizaines de millions ou de centaines de millions de milliards.
Données de faible taille: généralement une table de configuration, telle que la signification chinoise correspondant à la valeur de la liste ou à la date de la date. La quantité de données peut être des bits ou des dizaines de milliers.
Ici, nous avons terminé la signification de chaque classe de la hiérarchie de données, qui est un résumé à comprendre, comme indiqué ci-dessous.
Four, prenez une châtaigne
du fer chaud, apportant une châtaigne, comme suit la photo peut être considérée comme un système de données conçu. un site Web de commerce électronique. Je fais attention à une partie du journal d'accès utilisateur.
1, dans la classe ODS, le journal d'accès de l'utilisateur est divisé en de nombreuses classes SAO en raison de différents groupes de développement à chaque extrémité ou de nombreux autres problèmes.
2, pour faciliter l'utilisation des personnes, nous avons mis en place un comportement d'accès à l'utilisateur dans la classe DWD. Ici, nous apporterons leo PC, H5, applet et application originale dans une table. À l'intérieur, le nom de l'école unifiée, améliore la qualité des données. Il existe donc une liste de tables changeantes pour que chacun à utiliser.
3, dans la classe DWM, nous choisirons la taille essentielle des préoccupations commerciales de la catégorie DWD à rassembler, telles que pour les personnes, les biens, les équipements et les tailles de zone de site. De même, nous avons fait beaucoup de tables intermédiaires DWM4, puis dans la classe DWS, nous mettons une personne dans une table dans l'ensemble du site Web, c'est notre tableau large, avec cette table, vous pouvez rapidement rencontrer Besoins commerciaux les plus universels.
5 Enfin, dans la couche d'application de l'application, les données sont introduites dans une table d'application d'une ou plusieurs cartes de la classe DWS au besoin.
Remarque: L'exemple est simplement d'expliquer le rôle de chaque classe, pas la solution la plus raisonnable, tout le monde peut tirer parti de
- .
V. Pratique complèteÉnorme
car il s'agit de la hiérarchie des données, les calculs et les systèmes de stockage sont utilisés au niveau, ce qui est très simple à partager. Le stockage des couches de données en général est le suivant:
Source de données: La source de données est généralement la bibliothèque de services et le point intégré, et bien sûr, il existe de nombreuses sources de données différentes comme des données achetées tierces. Stocker les bibliothèques d'affaires est généralement MySQL et PostgreSQL.
Classe ODS: La quantité de données ODS est généralement géniale, la plupart des entreprises choisiront de disposer de HDFS, à savoir la ruche ou la HBASE, la ruche.
Couche d'application: Les données de la classe d'application nécessitent souvent une vitesse de rétroaction relativement rapide, elle est donc généralement placée dans MySQL, PG, Redis.
Calcul du moteur, vous pouvez simplifier les lignes répertoriées dans l'image. Actuellement, les mises à jour techniques des grandes données sont rapides et pCette liste n'est qu'une référence simple.
ont pensé
est "Entrepôt de données et paradigme" un article dans les pensées finales du Même entrepôt de données et modèle, quel est cet article en pensant et résumant les principes des hiérarchies de données? Pourquoi cette hiérarchie est-elle? Quelle est la limite entre chaque classe? J'ai personnellement compris la division des données de ces points de vue:
1. Du soutien de l'application, nous espérons obtenir le niveau suivant, affiliation amitié plus utile. Par exemple, la couche d'application, fondamentalement conçue complètement, très facile à comprendre, la classe DWS, relativement, aura une compréhension du coût, puis les classes DWM et DWD sont plus difficiles à comprendre, à cause de la taille qu'elle peut comparer beaucoup et il faut avoir de nombreuses tables compliquées par la complexité.
2, de la gamme de capacités, nous espérons que 80% ont besoin de plus de 20% du tableau. Directement, ce sont les besoins les plus (plus de 80%), l'utilisation dTable DWS de DWS à la prise en charge, DWS ne peut pas prendre en charge, à l'aide de tables DWM et DWD à prendre en charge, toutes supportées de très peu de pièces de données ont besoin d'un journal d'origine. Combinée avec le premier point, il s'agit de: 80% de la demande, nous souhaitons tous appuyer une application très amicale, au lieu de diriger le journal d'origine du journal d'origine.
3, du niveau de synthèse de données, nous espérons que plus la synthèse de données est élevée, plus le niveau de synthèse est élevé, l'exemple ci-dessus, les données ODS et DWD sont fondamentalement des détails du journal d'origine. n'effectue aucune activité générale. DWM a une activité de synthèse légère qui conserve uniquement la taille générale et la synthèse plus élevée, ne peut conserver que sur deux pour décrire les dimensions de la description actuelle. De ce point de vue, nous pouvons comprendre que nous sommes divisés par des niveaux de synthèse de données.
Seven, résumé
La conception de la couche de données, dans une certaine mesure, il convient également de se refléter des données de nommage, de base cet article est d'expliquerPoints de données.L'idée et la méthode de la classe, il y aura un article distinct pour partager la spécification de spécification de conception pour la fiche de données en fonction de la couche de données.