1. Comment comprendre la table des faits
La table de fait est un autre noyau de modélisation de la dimension, proche du processus métier de concevoir et de décrire. Par rapport au compteur de dimensions, la fiche de renseignements est beaucoup plus grande et, en raison du processus métier spécifique, il est également très important. Différent de la table de dimension, la table des faits peut stocker des informations d'attribut de dimension. Il existe généralement trois classifications: des faits de transaction, des faits d'instantané et d'autres types de faits, où les faits d'instantané sont divisés en faits d'instantané de cycle et des faits d'instantanés accumulés.
En raison de la relation entre les données historiques, la table des faits nécessite généralement plus d'exemples pour aider à la description. Il sera donc difficile de comprendre. Cet article élaborera autant que possible de manière simple, après tout, la scène d'entreprise est différente et les problèmes rencontrés sont encore différents.
Deuxièmement, le principe de conception de la montre de fait
Quel type de table de fait est conçu et un certain principe est nécessaire. Le principe n'est pas seulement une disposition potentielle que le processus de développement logiciel doit être respecté, mais également les contraintes que l'architecture doit être observée.
Le principe de conception de la table de fait présente ce qui suit:
1, le fait que tous les scénarios d'affaires: l'intention initiale de la conception de la table de fait, c'est-à-dire afin de décrire et le processus de statistique pertinent, toutes les informations commerciales sont incluses, il est très nécessaire.
2, le fait que les contourcants et les scénarios d'affaires: cette bande correspond à la tige, mais elle doit être soulignée, beaucoup Le fait que les faits aient rejoint de nombreux indicateurs statistiques pour poursuivre grandes et complètes, ce faisant que cela ne va pas, des données de thèmes différents, devraient essayer d'éviter de mélanger ensemble, il est très facile d'apparaître rejoindre, il n'y a pas plus de quelques Situation de la barre;
3, la pièce de décomposition est incapable d'être des composants additionnels: Par exemple, cliquez sur Nombre = Cliquez sur Quantité / Affichage Quantité, le nombre de clics doit être enregistré dans la table;
4. Déterminez la taille de particule minimale: la taille des particules détermine le niveau d'indicateur de la table de fait et est également les attributs nécessaires de l'extension de la table de dimension. Il est donc nécessaire de déterminer la taille des particules la plus fin de la table avant de concevoir le la table et la post-expansion est beaucoup flexible;5, la même forme de fait n'a pas de variété d'usines de taille de particules différentes: c'est mieux comprise, différentes statistiques granulaires sont sujettes à des calculs répétés;
6, l'unité de maintenance est cohérente: les mêmes faits dans la même table de fait devraient être cohérents, tels que la quantité de recharge, la quantité de consommation et le montant de retour dans la table de facturation, doivent être définis sur le yuan ou la division;7, Traitement de la valeur NULL: la valeur null est dans l'environnement tel que la ruche,La requête et l'environnement filtrant de SQL ne prennent pas effet, nécessite une logique complexe pour gérer les valeurs null, il est donc recommandé d'utiliser 0 ou un nombre aléatoire à remplir;
8, améliorer la dimension de dégradation de la polyvalence de la Tableau de fait: Dans le grand environnement de données, si chaque calcul nécessite la table de dimension et la table de fait, la complexité de la table de fait augmentera, elle peut donc être améliorée, elle peut donc être correctement dégradée en fonction de la situation réelle, une dégradation appropriée De certaines dimensions de la table de fait au milieu, l'opération associée peut être réduite pour faciliter l'utilisation de la plate-forme en aval.
KIMBALL fait référence à la méthode de conception en quatre étapes de modèle de dimension dans le livre: Sélectionnez le processus métier, la déclaration de la taille des particules, déterminer la dimension détermine le fait. Dans les heures de travail de l'Ali, les différents départements et équipes de données ont tendance à unifier les méthodes de conception du modèle, ce qui a une aide précieuse pour la migration de données post-ODPS. Ainsi, une version améliorée d'Ali de l'Ali est utilisée pour expliquer la méthode de conception de la table des affaires. Il y a des étapes:
1. Déterminez la table des faits conformément au processus métier: après avoir reçu les exigences de l'entreprise, vous devez analyser l'ensemble du processus et le cycle de vie de l'entreprise, démanteler les étapes clés, établir ainsi un Table de fait transactionnel.. Par exemple, le processus de publicité présente les étapes suivantes: Créez un utilisateur, créez un plan de lancement, la mise en place de différents canaux, déception statistique et autres indicateurs, et la création de la table de fait est posée autour de l'utilisateur, du plan, des canaux et des indicateurs.
2, Déclaration de granularité: la taille des particules est une étape très importante dans la table de fait. Il y a un problème que le problème est probablement causé par des calculs répétés. Par conséquent, il est nécessaire de sélectionner la force atomique basée sur le processus métier afin de garantir une meilleure flexibilité dans les statistiques post-volume. Par exemple, le produit nécessite des statistiques sur la granularité de la commande, mais le processus opérationnel réel est la granularité la plus fine est SubrdHeppe, puis les souscriptions doivent être effectuées dans le processus de création de la table de fait.
4, Déterminez le fait: le fait devrait choisir toutes les options relatives au processus métier et la taille des particules est cohérente avec la taille de particule la plus fin de la déclaration.
5, Dimensions redondantes: Cette étape est destinée à l'étape spéciale de la modélisation de la dimension dans des environnements de données importants, principalement pour les statistiques et l'utilisation en aval de la commodité, des dimensions redondantes appropriées, bien que le modèle STAR soit détruit des règles, mais une flexibilité améliorée.FAITS FAITS
La table de fait dispose généralement de trois catégories: faits transactionnels, faits d'instantané et autres types de tables de faits, qui sont le plus souvent impliqués qu'il s'agit d'un fait transactionnel La table et le processus de conception ont été mentionnés ci-dessus et ne seront pas décrits à nouveau. Mais la conception du formulaire de transaction est généralement l'ensemble du processus d'activité.Le processus métier aura des phases de tâches différentes et fera donc des statistiques pour chaque étape, ou mettra toutes les étapes ensemble, il y a une différence dans la table des faits et les faits de la table des faits.
Tableau d'information à une seule propriété, c'est-à-dire une conception de processus d'entreprise pour chaque étape, l'avantage est que la logique de construction est très claire, l'inconvénient est que sa complexité et sa mise en place de près en relation.
Tableau de fait multi-transactions fait référence au fait que les faits de différentes phases sont dans la même table de fait, c'est-à-dire qu'une table de fait contient plusieurs processus métier différents.
V. Tableau de fait Snapshot
La table des effectifs de la transaction peut être clairement décrite clairement, mais pour certaines données annexées périodiques, telles que les changements historiques du montant de la transaction, l'accumulation d'inventaire des marchandises, la table factuelle qu'il n'est pas facile de la décrire clairement, et il est nécessaire pour faire une description des indicateurs dans différents cycles par la forme de faits d'instantané. Les faits d'instantané sont divisés en deux types: des faits d'instantané cycle et des usines d'instantané accumulées, décrites ci-dessous.
Tableau d'information sur l'instantané de cycle, par
dans
Dans l'intervalle de temps
et des statistiques sur l'élément indicateur. Par exemple, du cycle de paiement à la réception, le cycle de la réception de l'évaluation est non qualifié. Ainsi, les statistiques nécessitent une mise à jour quotidienne, collectant les dernières modifications. Il est encore expliqué à Taobao, comme suit:
6, d'autres types de faits
Autres usines de type comprennent principalement des faits inhabituels,des tableaux de fait agrégés, sont exposés comme suit:
1, aucune table de fait factuelle, bien que la table de fait soit utilisée pour mesurer les affaires, mais qu'il ne contient pas de faits ou de mesures, tels que le plus courant est le plus commun. Table d'information de la classe de journal, l'accès à la navigation de l'utilisateurEnregistrement, enregistré dans la table, mais le nombre d'affichage et des clics ne sera pas compté dans ce tableau; l'autre est le processus commercial des conditions, la portée ou la qualification, telles que la promotion du produit, etc il n'y aura pas de statistiques.
2, la table de fait collective, la table a un autre nom "Couche intermédiaire", également appelé "résumé public", précipitant généralement les données publiques les plus fréquemment utilisées vers une table, utilisée en aval.Les principes de base de sa conception sont trois: la cohérence, en évitant la conception unique et la taille des particules agrégées peuvent être différentes.L'étape de conception est également trois étapes: déterminez la dimension d'agrégation, déterminez les faits d'agrégation de perçage et de détermination de la consistance.