Les personnes qui connaissent l'histoire de l'entrepôt de données connaissent le projet de loi Inmon, Ralph Kimball. Bill Inmon représente "la construction de l'entrepôt de données", la Ralph Kimball représente comme "The Datawarehouse Toolkit", "The Data Warehouse Lifecy". Les deux maîtres ont apporté une explication profonde du modèle de données et le modèle de données de compréhension personnelle est l'âme de la plate-forme de données. Le modèle de données est conçu pour être une application de données, la prise en charge de l'analyse des données est très utile. En particulier, le modèle de dimension proposé par KIMBALL peut exprimer visuellement les relations de données commerciales autour du modèle d'entreprise.
Conseils 1: La table de dimension doit contenir la fin de la granulomane
, «spécial», «plaintes régulières spéciales» Quelle demande a changé, cette demande Ne peut pas être modifié pour changer », la construction de données rencontrera une demande très incertaine, un dépistage imprévisible et un résumé.
Surtout sur Internet, plusieurs résumés sont en mesure de répondre à la demande. Plusieurs fois, ils sont immergés vers des informations détaillées relativement détaillées. Bien entendu, les indicateurs de synthèse peuvent résumer certains détails de données décrites, mais seules les données détaillées peuvent répondre aux données sur divers services sans arrêt.
Conseils 2: Construire une dimension autour du processus métier
Les données sont une réelle activité de service de réaction et les résultats, le processus métier est à différentes étapes. L'élément de données généré est également différent. Par exemple, un utilisateur est à la recherche d'une application, de téléchargement, d'installation, de démarrage, puis de lancer ce processus. Utilisateurs shopping à Taobao, trouvez des articles de navigation, mettez dans les chariots, les caissiers de saut, la paye, complétées.
Afin d'explorer les données du degré multidimensionnel des processus métier, les nombreuses dimensions impliquées sont de préférence un processus métier de conception, tels que la transaction ci-dessus, de la source des commandes,les produits d'appartenance du site, source de fonds de la phase de paiement, du processus métierRegardez, vous pouvez également prolonger davantage de dimensions, avec des métriques.
Dans différents liens commerciaux, les deux hommes d'affaires "très naturels" exigent différents indicateurs, mais il s'agit souvent d'une grande relation avec les processus opérationnels de la demande.
Conseils 3: Essayez de vous assurer que chaque table de fait est associée à des dimensions de temps
Les deux services seront toujours là une relation avec la date , que ce soit mois, jour, année ou division, deuxième, année financière, événement de temps personnalisé, etc.
Chaque table de fait a au moins une clé étrangère à être connectée à la dimension de la date et que la dimension temporelle peut refléter la quantité de stock et de trafic pour analyser un changement de processus opérationnel de certains temps.
Conseils 4: Le niveau de dimension correspondant de la même table de fait doit être cohérent
La table de fait général comporte quatre types, des faits granulaires, des faits instantanés périodiques, des faits d'instantanée d'agrégation, des faits d'instantané d'agrégation, non -Les faits de cas, quelle que soit leur type de taille des particules, chaque valeur métrique dans la table de fait doit maintenir la taille de particules de la dimension de la taille des particules, sinon il attendra de s'effondrer.
Par exemple, le cas donné en principe deux, d'analyser un service de paiement de commande d'utilisateur. Si ce service est conçu et analysé, la dimension du produit est définie comme un produit, mais la valeur de mesure est polymérisée en fonction de la classification de produit différente, alors il est significatif. Je n'ai pas rappelé ce que la scène similaire fera des erreurs.Conseils 5: Manipulation des relations multi-à-nombreuses relations entre les faits et les tables de dimensions
La valeur des tables de dimensions multiples peut être attribuée lorsque vous donnez une transaction simple, La table et la dimension de base sont généralement une relation multi-à-plusieurs. Par exemple, afin de calculer l'auteur du livre d'écriture, un livre peut avoir plusieurs auteurs et un livre peut publier de nombreux livres, ce cas dans ce cas C'est une relation multi-à-plusieurs. Considérant que la séparation de chaque auteur peut être calculée, un pont peut être ajouté.
En résumé,
Dans ce cas, la dimension de la pluralité de valeurs peut être traitée directement par une table de pontage.Six: Traitement dimensionnel, changements fréquents
Plusieurs fois la dimension de conception est aplatie, les dimensions générales de l'entreprise que la relation est une relation individuelle, Tels que, par exemple, le client SIMMY convertit son adresse de l'ADDR1 d'origine à Addr2. À l'heure actuelle, nous devons enregistrer cet enregistrement de la date limite valide dans l'enregistrement du client SIMMY à l'adresse actuelle et ré-ajouter une date limite valide.L'enregistrement actuel est actuellement enregistré avec un nouveau numéro de version et adresse est addr2.
Cependant, il existe souvent une paire de relations, telles que l'adresse du mailing de chacun, le numéro de téléphone personnel, etc. ont changé dans la vie réelle. Cette situation peut avoir quelques relations, s'il ya des millions de dimensions dans une table de dimension et que des informations résumées changent souvent, puis faites attention au changement lent ou changez rapidement.
Conseils: Laissez la table de dimension Utilisez la clé de l'agence
Anglais appelé CherateKey, traduit et appelé une clé proxy, dans la modélisation, il n'y a pas de sens de la valeur clé pour remplacer Certaines valeurs de clé de l'entreprise, qui est propice à l'intégration unifiée des dimensions.
Conseils 8: Traitement des dimensions de cohérence
La dimension consistante est également une dimension unifiée. Il a une signification critique pour la construction d'un modèle de données de la plate-forme de données de niveau d'entreprise. Par traitement à la fois dans la liaison de traitement de la conversion de données, il peut être utilisé à plusieurs reprises dans la construction de différentes données, différentes couches de données. Lors de la construction d'un modèle multidimensionnel, il peut être facilement associé à une variété de types d'indicateurs d'entreprise, permettant d'utiliser des utilisateurs de basculer l'analyse entre différentes entreprises et de réduire la maintenance.
Par exemple, la description de données est souvent incompatible, telle que le même nom, le même objet est un diamètre, et le diamètre est diversifié, le codage n'est pas uniforme, nommé n'est pas uniforme. Certaines catégories inconnues pouvant également être traitées de certains inconnus, ne connaissent pas le nom, la date à définir.
Cependant, le plus gros obstacle lors de la mise en œuvre de la dimension unifiée est nécessaire pour différentes unités d'entreprise. Le service informatique a accepté chaque attribut de dimension, qui implique la gestion des données et la gestion des données.. Par exemple, la signification de la même chose mais le nom est différent. TIPS Neuf: La fonction d'analyse des balises marquées et des filtres et d'autres informations peuvent être utilisées comme dimension pour sauver
En fait, ce n'est pas principe, il ne s'agit pas de principe enclin à classer. Par exemple, lors de la construction d'un produit de données analytique, certaines étiquettes fonctionnelles, le code ou la classification de la classe de requêtes peuvent être complètement dimensionnées.
Par exemple, le seuil de filtre dans certains menus déroulants, etc l'exploration de groupe spécifique de l'utilisateur, l'analyse associée du produit, etc peut dimension et prétraitement.
Les avantages de cela sont rapides et certaines données de résultats d'analyse sont pré-traitées. La partie d'agrégation est requise dans la requête pour modifier la requête du filtre, ce qui augmente l'analyse de l'efficacité de la requête.
Conseils 10: Traitement de dégénérescence des grandes dimensions
La dite de grande dimension signifie que les données de la dimension sont particulièrement importantes. Par exemple, la dimension URL d'Internet peut être des millions de millions, et des clients, des produits, etc.Une dimension client de grande entreprise compte souvent des millions d'enregistrements et chaque enregistrement a des centaines de champs.La grande dimension cliente dépassera 10 millions d'enregistrements et ces dimensions des clients personnelles ont parfois plus de dix champs, mais la plupart du temps, moins de dimensions ne sont que quelques propriétés.
Le traitement de ces dimensions tendit à utiliser des processus spéciaux tels que de petits attributs à de petits attributs, de dégradation et d'accroître plus de champs de classification plus différents.