"Guide complet de la boîte à outils de l'entrepôt de données - Guide complet de modélisation dimensionnelle" L'auteur KimballLL est autorité dans l'entrepôt de données, et il construira une expérience pratique dans l'entrepôt de données pendant de nombreuses années et s'intègre à ce livre. De nombreux concepts de modélisation de la dimension qu'il proposaient est largement utilisé dans la conception et le développement des entrepôts de données.
Les notes suivantes contiennent quatre organisations partielles:
1. Processus d'architecture et de modélisation de l'entrepôt de données, des techniques. Technologie de modélisation de la table de dimension.
Troisièmement, la technologie des modèles de conception factuelle.Quatre expérience de modélisation de l'industrie.
Premièrement, Processus d'architecture et de modélisation de l'entrepôt de données
Points de clé: Architecture de l'entrepôt de données, modélisation de dimension Quatre étapes, structure de bus de l'entrepôt de données, dimension de cohérence.
1. Pour les entrepôts de données, les besoins professionnels sont les premiers.2, la cible de l'entrepôt de données:
Access Data comme vous le souhaitez. Intuitive, évidente, simple, facile à utiliser, couper, fusionner, descendre des diamants, en volume.Données d'affichage cohérentes (par rapport au rapport d'origine de plusieurs systèmes).
Adaptabilité, évolutivité, maintien de maintenance.Soutien aux décisions de leadership.
3, la composition de l'entrepôt de données. Données source - & GT; Zone de préparation des données - & GT; entrepôt de données (modélisation de dimension) - & gt; jauge de données (OLAP) - & gt; spectacle. Parmi eux, le système d'origine à la zone de préparation des données appartient au processus ETL. Warehouse de données et zone de collecte de données Ce livre s'appelle l'affichage des données. Affiche ce livre appelé outil d'accès aux données.4, l'entrepôt de données devrait porter une attention particulière aux caractéristiques:
Les données doivent être affichées, stockées et accessibles dans les dimensions.
Les données atomiques détaillées doivent être incluses dans l'entrepôt de données.
Les dimensions et faits communs doivent être utilisés pour les modéliser.
5, l'entrepôt de données utilise les avantages de l'utilisation de la modélisation de la dimension: facile à comprendre, haute performance, flexibilité et expansibilité de la requête.
6, la dimension de la modélisation de la dimension. La performance est dans trois aspects:
augmente la dimension dans une table de fait existante.
Ajouter des faits dans la table des faits.
Ajoute des attributs dans la table de dimension. (Chapitre 1)
7, quatre étapes pour le modèle de dimension de conception.
Sélectionnez l'entreprise (sujet). Définissez la taille des particules du processus métier.
Sélectionnez la dimension.
8, il convient de préférer choisir une information atomique pour le modèle car atomicityLes données fournissent une flexibilité maximale et accepte toutes les contraintes de forme possibles. (Chapitre 2)
9. Structure de bus d'entrepôt de données. En fait, une méthode de modélisation incrémentielle est intégrée grâce à la dimension de cohérence. Matrice de bus de données: traitement des affaires, dimensions publiques. Centre de données de niveau 1: dérivés d'un système de base unique de base, il est recommandé de commencer à modéliser à partir du centre de données du premier niveau, car le principal risque qui cause une défaillance est ETL. Centre de données de fusion: fusionner plusieurs centres de données situés dans différents systèmes de sources. (Chapitre III)
10, Revue de modélisation de la dimension. Considérant le problème: taille des particules, dimension de la date, dimension de dégradation, attribut de dimension adopter le nom plutôt que le codage, le mot-clé proxy et la dimension.
11, l'erreur de la modélisation de la dimension:
abandonner la dimension de consistance et la table de consistance.
La taille des particules de la table de fait n'utilise pas de type atomique.
Concevez la table de dimension basée sur le rapport.
N'utilisez pas le mot-clé proxy.
Ignorer la demande de changement de dimension.Décompose le système et le niveau du système en plusieurs dimensions.
Dans la table de dimension, la description détaillée de la description est limitée à économiser de l'espace.Placez l'attribut de texte pour les contraintes et les opérations de paquets dans la table de fait. (Chapitre 15)
12. Cinq Principe de réussite des entrepôts de données:
Avec des utilisateurs avantageux et puissants. Les utilisateurs doivent avoir des idées uniques pour l'entrepôt de données et croire fermement que le projet d'entrepôt de données a la valeur de la mise en œuvre.
La disponibilité des entrepôts de données.
Communication entre les utilisateurs professionnels et le personnel informatique.La culture analytique des analystes d'entreprise est basée sur des graphiques, des données ou de l'intuition, des rumeurs et impulsifs. (Chapitre 16)
Deuxièmement, Clé de modélisation de la table de dimensions
Clé: Dimension dégénérée, mot-clé de proxy, cohérence, dimension à gradient, imitation de rôle, dimensions diverses, micro dimensions, niveau variable de profondeur Méthodes de modélisation, dimensions d'audit, solutions de dimension multi-valeur, solutions de produits hétérogènes.
1. Le tableau de la dimension a tendance à être assez faible et le nombre de colonnes est particulièrement grande. La capacité de l'entrepôt de données est directement proportionnelle à la qualité et à la profondeur des propriétés de la table de dimension.
2, les propriétés de la dimension utilisent du texte au lieu de codage.
3, les tables de dimension sont généralement irrégulières, échangent presque toujours de la concision et de l'accessibilité. (Chapitre 1)4, la Date Dimension, la semaine, Indicateur de week-end, indicateur de fin de mois, indicateur de vacances, événement majeur, financierTemps, etc.
5. Si vous avez besoin de gérer différents moments dans une journée, ajoutez une dimension de temps.
6, une dimension contient plusieurs systèmes (hiérarchiques), chaque hiérarchie contient plusieurs niveaux.
7, dimensions dégradées. D'une part, les données peuvent être tamponées par des dimensions de dégradation et, d'autre part, la dimension de dégradation peut être utilisée pour associer aux données source, ce qui est avantageux pour la mise à jour et le dépannage de l'ETL.
9, mot-clé de l'agent. Avantages de l'utilisation de mots-clés de proxy: dimensions classées; atteindre des avantages dans la performance, sauvegarder l'espace de table de fait; vous pouvez enregistrer des données sans source d'exploitation (génération de processus ETL); modification de champ de processus, suppression, etc. (Chapitre 2)
10, la dimension de cohérence. Avec des mots-clés cohérents de dimension, des noms d'attributs cohérents, des définitions d'attribut cohérentes, des valeurs d'attribut cohérentes. Les dimensions de cohérence ont un effet décisif absolu sur la conception de centres de données intégrés. (Chapitre 3)
11, dimensions de gradient. Traitement des dimensions de gradient.
Type 1: Retirez la valeur d'attribut;Type 2: Ajouter une ligne de dimension;
Type 3: Ajoutez la colonne de dimension.Le deuxième type est le plus couramment utilisé.
12. Traitement des dimensions variables rapides: diviser ces propriétés modifiées rapidement en une ou plusieurs dimensions distinctes. (Chapitre 4)13. Le caractère de la dimension est imité. Établissez de multiples dimensions sous la forme d'une vue dans la même dimension. Utilisation pratique, de nombreux outils OLAP prennent en charge la construction de plusieurs dimensions sur la même table de dimension et n'ont pas besoin de créer des vues.
14, il existe une relation fixe et déraisonnable entre l'entité et il est clair qu'ils devraient être modélisés comme une dimension unique.
15, dimensions diverses. Le logo est décollé de la conception à une ou plusieurs dimensions diverses. (Chapitre 5)
16, le fait que les faits seront placés dans la table de dimension. Avantages: Vous pouvez contraindre les propriétés d'agrégation lors de la question. Inconvénients: Le processus ETL devient gênant.
17, l'utilisation de modèles de flocon de neige: la taille des particules est dispensée, économie d'espace (nombre d'attributs).18. Traitement de l'ensemble du genre de largeur de largeur: divisé en deux dimensions. Il n'y a pas de tel problème dans la base de données Oracle.
19. Lors du traitement des dimensions en mode 2, vous devez faire attention à éviter un comptage excessif.
20, approfondissant l'architecture constante (hiérarchie, niveau). Une hiérarchie établit un champ distinct. Si un niveau n'a pas de valeur, vous devez remplacer la valeur avec une propriété de niveau inférieure.
21, architecture variable de profondeur. Utilisez le pont Snap pour le résoudre. Chaque chemin du parent-à-l'enfant contient une ligne d'enregistrements au chemin de sa propre longueur de 0 contient une ligne. En fait, le processus de processus récursif est obtenu par des données de table. Un grand nombre d'outils OLAP fournissent un support fonctionnel intégré plus puissant pour ces systèmes dans des dimensions de petite et moyenne taille inférieure à 64 000 membres. (Chapitre 6)22, conformément à la quinzième description, l'efficacité et la date limite sont ajoutées à chaque ligne et la conception de la dimension à gradient de type 2 peut être modifiée pour permettre une très bien paire de dimensions naturelles. Couper.
23, la dimension d'audit. Système source; extraire la version du logiciel; extraire le nombre d'enregistrements; heure de début; temps d'achèvement, etc.
24. Lorsque le nombre de propriétés de dimensions est incertain, utilisez des dimensions du support de mots-clés. Il équivaut à concevoir la table horizontale dans une table longitudinale. Utilisez les commandes Union et intersect pour résoudre le problème de la contrainte croisée SQL. (Chapitre 8)25, Type de dimension: En raison de la dimension de fruits, de la dimension multi-date ou de la date, de la dimension de dégradation, de la dimension d'imitation de rôle, de la dimension d'état, de la dimension d'audit, de la dimension diverses.
26, dimensions multi-valeur. Concept: Un compte comporte plusieurs clients et un client peut également avoir plusieurs comptes. Solution: Bridgelines.
28, Date de dimension de la date. Méthode de manutention de calendrier domestique, faisant une tranche de dimensions de date.
29, la méthode de traitement de plusieurs dates de fuseau horaire, augmentant la dimension. (Chapitre 10)
30, solution de dimension multi-valeur. La dimension dite multi-valeurs fait référence à une dimension d'un facteur correspondant à plusieurs valeurs, par exemple, la table de synthèse de la colonisation hospitalière présente plusieurs maladies. Mettre en œuvre via la table de pont d'équipe. Les tables de pont de groupe peuvent augmenter l'heure de début pour répondre aux dimensions de gradient hospitalisées. Les facteurs pondérés peuvent être augmentés pour atteindre des états financiers sur les statistiques de classification sur les maladies.
31, solution de table de fait rare. Table de dimension de vérité. En fait, l'idée de conception de la table longitudinale et de la table horizontale. Avantages: structure flexible, structure simple, économie d'espace. Inconvénients: Générez des requêtes, Le rapport est complexe et le calcul de la ligne est difficile.
32, la méthode de traitement est en retard à la dimension. La soi-disant tardive jusqu'à ce que la dimension fait référence à un certain attribut au moment actuel connaît sa valeur précédente. Au cours des dimensions de gradient (type 2), ajoutez des enregistrements et modifiez d'autres types de temps de démarrage dans la table de dimension et modifiez le mot-clé proxy de cette dimension dans la table de fait. (Chapitre 13)
Troisièmement, la technologie de modélisation de surface factuelle
1, les faits dans la table de fait sont divisés en trois types: fait de l'addialisation, faits semi-additifs, non-additifs, non faits posables.
2, les trois granularité: transactions, instantanés de cycle, instantanés accumulés.3, la table de fait a tendance à avoir plus de lignes et de quelques colonnes.
4, la clé principale de la table de fait doit utiliser la clé primaire composite pour introduire le seul mot-clé RowID comme clé principale. Il n'y a aucun avantage. (Chapitre 1)5, le fait qu'il appartient à une taille de particules différente doit être placé dans une table de fait distincte.
6, qui calculera la valeur comme un fait - éliminant la possibilité d'une erreur utilisateur, de référence cohérente. Par exemple, le bénéfice = coût de vente, qui sera effectué comme un fait plutôt que par l'affichage des outils.
7. Les éléments de données non posables ne doivent pas être placés dans la table des faits. Par exemple, la marge bénéficiaire brute est des données non additionnelles et ne doit pas être enregistrée dans la table de fait, et la molécule et le dénominateur doivent être enregistrés, puis le calcul est effectué par l'outil d'affichage avant.
9, la taille des particules de la table de fait est essentielle pour déterminer l'évolutivité du modèle de dimension. Résumé des frais généraux ou le traitement de l'agrégation limitent inévitablement la supplémentation de dimensions.
10, faits semi-additifs. Il a adhéré pour des dimensions spécifiques et n'a pas d'additif à d'autres dimensions.11. La table de fait Snapshot Cycle est la conception stock la plus courante.
12, faits de cohérence. Définition constante de la définition de fait, une unité de mesure cohérente. (Chapitre 3)13, à l'aide d'une seule table de fait (en ajoutant des dimensions de type transaction) ou plusieurs faits:
Exigences commerciales (objectif est de réduire la complexité, d'utiliser l'affichage des données de formulaire le plus efficace de l'utilisateur. ).
L'association de traitement des affaires. Système source.Si la dimension est exactement la même. (Chapitre quatre)
14. La normalisation de la table de faits. Conception longitudinale et horizontale. Avantage. Le fait que la fixation est utile d'être plus clairsemée et non dans le fait qu'il est utile. 15. Traitement de faits granulaires différents. Par exemple, commandez des usines de sous-liste dans le système de commande (basé sur des produits) et les coûts d'expédition (basés sur les commandes). Deux méthodes de traitement:
Attribuer au niveau de détail (chargement à des produits).
16, clichés accumulés. En utilisant un intérêt analytique dans l'ensemble du processus de traitement des commandes, ils veulent comprendre la vitesse mobile du produit, et l'instantané cumulé reflète ce scénario d'affaires. Applicables: les applications de traitement à court terme avec le temps de démarrage clair.
17, un procédé de traitement d'une pluralité d'unités de mesure. Ecrire le facteur de transfert à la table de fait.18, comparaison de trois faits: (chapitre 5)
19 à ce jour: Il devrait être calculé, pas enregistré dans la table de faits. faits numériques doivent être compatibles avec la taille des particules. 20, les changements dans les faits augmentent d'une rangée de registres vers le bas, et non pas en modifiant les données factuelles originales. 21, la liberté des faits. Connectez-vous à la table de faits par table de définition de segmentation pour diviser de manière flexible et définir des segments. champs d'usine de segment doivent être construits. (Chapitre 7)
23, la taille de particule de tableau des valeurs multiples. Pas très compréhensif. (Chapitre 11)
24, table de fait non réel. Il n'y a pas des mesures, les événements se sont produits. Divisé en deux catégories. Le premier type d'événement d'enregistrement est enregistrée simultanément avec un grand nombre d'entités dimensionnelles. Classe 2, table de gamme. Peut être utilisé pour réaliser aucun événement qui se sont produits. LOAP a fait un travail fructueux dans l'analyse de l'incident qui a eu lieu. (Chapitre 12)
25, faits rares modélisation. Faire des faits rares dans les dimensions de fait. Table longitudinale et table horizontale.
26, la méthode des faits en retard. Selon le temps dans chaque table de dimension, trouver le mot-clé proxy correspondant, puis insérez la table de faits. (Chapitre 13)
27, le modèle d'usines de produits hétérogènes. Mettre en place une table de faits de base et une table de fait sur commande de cluster. Utilisez le même mot-clé de l'agent.
28, table de fusion fait. Deux tables de faits sont combinés ensemble à travers les dimensions communes. Peut être démontréFusionner.(Chapitre 15)