Skip to main content

Pourquoi la modélisation de l'entrepôt de données est-elle? Si les données sont considérées comme un livre dans la bibliothèque, nous espérons les voir dans la bibliothèque. Si vous regardez le bâtiment de la ville, nous espérons que la planification urbaine est raisonnable; si les données sont en tant que fichiers informatiques et les dossiers, nous voulons avoir une bonne méthode de dossier en fonction de vos habitudes, pas un mauvais bureau chaotique, souvent pour trouver un document.


Le modèle de données est une méthode d'organisation de données et de stockage, mettant l'accent sur la base de données de manière rationnelle du point de vue des services, de l'accès aux données et de l'utilisation. Le fondateur de Linux des Torvalds a un "Qu'est-ce qu'un excellent programmeur": "Si la mauvaise rotation est préoccupée par le code, le programmeur est préoccupé par la structure de données et la relation entre eux", la plupart du modèle de données le plus important est un sexe important. Seulement une fois que le modèle de données commandera des données ou des commandes, les grandes données peuvent obtenir des performances élevées, des coûts à faible coût, une utilisation élevée, une utilisation de haute qualité, résument généralement la valeur des modèles d'entrepôt de données provenant de quatre aspects:



]

Performance
: Bon modèle de données peut nous aider à interroger rapidement les données requises, à réduire le débit des données d'E / S et à améliorer l'efficacité de l'utilisation des données.

Coût : Un bon modèle de données peut réduire considérablement la redondance des données inutiles et peut également atteindre les résultats de calcul multiplexés, réduire considérablement les coûts de stockage et de calcul.

: Lorsqu'un bon modèle de données passe à l'entreprise ou au système, il peut rester stable ou facilement atteint, amélioré la stabilité des données et la continuité

Qualité

: Bon modèle de données peut Améliorez l'incohérence des statistiques de données Caliber, réduisez la possibilité d'erreurs de calcul de données.

Alors, pourquoi l'entrepôt de données devrait-il être superposé?


L'avantage de la conception hiérarchique peut être généralement résumé:


Structure de données claire : Chaque hiérarque de données a sa portée afin que nous puissions facilement localiser et comprendre en utilisant une table.


Suivi sanguin de données

: il est possible de positionné rapidement et avec précision le problème et effacer sa plage de danger.

Réduire la duplication
: Normalisez les couches de données, développez certaines données de couche intermédiaire universelles, peut réduire les calculs de répétition.


Simplification des problèmes complexes Décomposer les tâches complexes en plusieurs étapes à compléter, seules des étapes simples sont traitées, relativement simples et faciles à comprendre. Une fois que les données ont des problèmes, n'ont pas besoin de corriger toutes les données, il suffit de commencer à réparer des problèmes pour protéger les données d'origine Ne devez pas modifier le service, vous devez données de ré-accès.

Les avantages de l'entrepôt de données, de nombreuses industries et des entreprises ont également expérimenté la modélisation de l'entrepôt de données, mais si vous demandez quel modèle de données est bien construit, chaque industrie est qu'il est difficile de diviser une haut.

Mais ce problème est également important, car le repère reconnaît l'écart de progresser, certains partenaires invitent l'auteur à parler de la modélisation de données, à raconter la vérité, l'auteur ne sait pas comment parler, Parce que cette entreprise est trop liée aux entreprises et aux données de la société, la théorie de la modélisation standard et la méthode de l'industrie soi-disant est également incapable.

Grand Dieu Inmon "Warehouse de données" et KIMBALL "Boîte à outils de l'entrepôt de données" est deux classiques, récemment très épais "Collection d'entrepôt de données et de business Intelligence", mais c'est aussi la collection de classique Articles dans Kimball.

Le modèle de modélisation est également appelé modélisation ER. Il est hautement respecté par le parent de l'entrepôt de données. Le modèle de données Description décrit l'architecture des entreprises d'entreprise, qui est trois NF dans le paradigme , qui est une abstraction du sujet dans la perspective de l'entreprise, plutôt qu'un processus métier spécifique. C'est une gestion plus intégrée et plus cohérente. Comme Inmon veut atteindre, une "version unique du Thetheth".



Le modèle de dimension est préconisé par un autre maître Ralph Kimball dans le domaine de l'entrepôt de données. La modélisation de la dimension pour analyser les besoins de prise de décision visant à créer des modèles, a généralement une meilleure performance de réponse des requêtes complexes à grande échelle, des représentants davantage orientés, des représentants typiques, nous sommes plus familiers avec les modèles STAR et s'appliquent dans des scènes spéciales Modèle de flocon de neige.



Les avantages de modélisation d'Inmon sont reflétés dans l'intégration normative, redondante, l'intégration des données et la cohérence des données est valorisée pour une planification stratégique plus grande, une planification stratégique, mais la L'inconvénient est de comprendre pleinement les affaires, les données et les relations,Le personnel de modélisation est très élevé, le cycle de mise en œuvre est très long, coûteux, l'auteur a connu le projet d'entrepôt de données ER de China Mobile lorsque je viens d'entrer dans la société, en effet une lacune de nouveau venu.


La modélisation de la dimension de KIMBALL peut récupérer rapidement, la livraison rapide, mais l'inconvénient est que la redondance sera plus, la flexibilité est relativement pauvre, mais ce n'est rien, Taobao a également mentionné que " Le processus de modification de la plate-forme de données Taobao est simplement expliqué que les deux sont différents, à l'origine, Taobao Business est simple, le système est simple, principalement un système de reporting simple; le volume de données suivant est de plus en plus grand, de plus en plus, de plus en plus, essayez de modéliser la Entrepôt de données à la modélisation ER, mais sous la pratique de l'évolution rapide des affaires, le risque et la difficulté des modèles de construction sont élevés et la méthode modèle basée sur la modélisation de la dimension est principalement utilisée.


mais Inmon et le débat de Kimball sur la modélisation de la relation et la modélisation de la dimension vaut la peine d'être exploré, personne ne vaut mieux, dans l'entreprise, ces deux bâtiments sont souvent existants et la relation sous-jacente est appropriée. L'élégance de la technologie a été rationalisée. C'est plus approprié pour la dimension supérieure au modèle et la redondance par données a apporté sa convivialité. Il a les avantages complémentaires. Le moule n'est pas facile, le modèle concept est un obstacle, en fait, la modélisation de la dimension n'est pas facile, la dimensionnalité de la La dimension est ardue, sinon c'est la vie des stands pourris.


Sur la modélisation des données, de nombreuses personnes sont empêtrées dans la manière de modéliser, de modeler, de modéliser la dimension ou d'autres personnes? Retourner, c'est aussi un nuage. En fait, il n'y a pas tant de moment de routage lorsque vous commencez, vous pouvez répondre aux besoins des rapports et du nombre de demandes. Essayez de faire "High-polycast, couplage lâche", c'est le Principe de service, mettez-le dans la modélisation de données la même application.


De nombreuses entreprises ont dépensé une considération considérable d'un ensemble de modèles de données. Le cycle est de 1 à 2 ans. Après quelques années, il est refusé et les racines du problème ne sont pas l'original Le projet est terminé, y compris le moyen de modéliser le mode, mais le projet a terminé une bête-biseau, manque d'opérations continues.


Je pense au modèle d'entrepôt de données de la société, quelle proportion a été améliorée dans les opérations quotidiennes, y a-t-il 10%? Ali est dans la construction de données dans la construction de données, de grands défis dans les opérations quotidiennes pour le contrôle de la puissance et l'amélioration continue du MTA le modèle de données doit être activé, non simple de répondre à la demande, ni pour les hommes d'affaires. sont satisfaits d'un moment, mais il est basé sur l'évolution de soi à long terme, toujours active, spontanée et continue.


L'équipe de l'équipe précédente a déclaré que, afin de répondre aux besoins d'exploitation minière des données, il est nécessaire d'expliquer le problème, et tout modèle de données de la société rencontrera. Similaire cueilli.Bataille, mais c'est aussi le début du chaos. Ce qui suit est une conversation classique:
a: "Maintenant, la variable minière de données est trop lente, pour engager une grande table de largeur, nous avons déjà triplé, nécessité Des dizaines de tables sortent sur le terrain, c'est la liste de ces tables? "


B:" La portée est si grande, tant de champs, de DWD à DWI, venez à DWA, avez-vous déjà pensé de mieux? "

A:" Ceci? Nous regardons, le modèle de fusion fait défaut, ou ensuite le faire, le faire simplement pour ce type de données! "

B:" Vous Table de largeur La prochaine fois qu'il rencontrera le même problème avec le modèle de fusion, le modèle de fusion est la performance relativement bonne du solde actuel, peut améliorer le modèle de fusion, l'attribut à chaque modèle de convergence en fonction du champ, et non la ligne, les ressources. sont limités, laissez ces tableaux le responsable du modèle de fusion est arrivé? "

L'amélioration continue du modèle d'entrepôt de données a toujours été provenant d'un lecteur de demande naturel ou sans échec, et les données sont Inclus dans les données. La reconstruction de la culture de données implique l'amélioration d'une série de processus de mécanisme, il est important de la reconnaître.


Sujets

Catégories