Toute demande provient de l'entreprise, l'entreprise détermine les besoins, l'exactitude de l'analyse de la demande est la clé du succès ou de l'échec du projet, de tout angle On peut dire que le projet est motivé par des entreprises, le projet Data Warehouse est donc également alimenté par l'entreprise.
Cependant, l'entrepôt de données est différent du développement du système d'information quotidien, en plus du cycle de déclaration de logiciel habituel d'un autre développement du système, d'analyse, de conception, de test, etc il implique également des données d'information d'entreprise intégrées, Le traitement de la phase de masse de données et le stockage hiérarchique, la sélection du mode d'entrepôt de données, etc le modèle physique de l'entrepôt de données est important, ce qui constitue également la clé du succès ou de l'échec du projet d'entrepôt de données.
La structure de l'entrepôt de données est la même manière que le modèle de données à trois niveaux:
Modèle conceptuel: est le modèle commercial, par décision d'entreprise Le résultat de l'analyse de la demande du système d'entreprise croisé dans les experts des connaissances du domaine des affaires et des experts informatiques.
Modèle logique:Utilisé pour créer un modèle logique de base de données pour les entrepôts de données. Le modèle de relation logique de la base de données est construit en fonction de la décision de la demande réelle du système d'analyse, définit la structure d'objet de base de données et sa relation. Il associe le modèle logique de l'entrepôt de données et les deux extrémités du modèle physique. Modèle physique:
Construire le modèle de distribution physique de l'entrepôt de données, comprenant principalement la configuration matérielle et la configuration du logiciel, la situation des ressources et le mode d'entrepôt de données de l'entrepôt de données.
Comme indiqué sur la figure, dans le projet d'entrepôt de données, la conception du modèle physique et la conception du modèle d'entreprise sont deux roues comme la mise en œuvre de la mise en œuvre de la mise en œuvre du Entrepôt de données, les deux sont en parallèle, il n'est pas possible. En fait, j'élans intentionnellement la connotation et l'extension des modèles physiques et des modèles commerciaux. Le modèle physique ici n'est pas seulement le stockage des données, mais également également la méthodologie, mais aussi la méthodologie, Ressources et sélection matérielle de projets d'entrepôt de données, etc.; Les modèles commerciaux ne sont pas seulement la création de modèle de thème, mais également la stratégie de développement, le modèle de l'industrie, etc.
Un excellent projet doit payer davantage les besoins de l'entreprise et les normes de l'industrie, ainsi que les besoins commerciaux, y compris les besoins effectifs des utilisateurs, mais l'analysent également objectivement une demande implicitement plus profonde, mais les besoins des utilisateurs ne sont pas clairs. être affiné et même guidé sous des experts des connaissances commerciales et les besoins des utilisateursAnalyse du travail; Ne répondez pas aux besoins des utilisateurs, le projet perdra son sens original.
Le modèle physique est comme l'infrastructure du bâtiment est la norme de l'industrie générale. Que ce soit un gratte-ciel, c'est aussi une faim, dans les yeux des architectes, il est juste un bâtiment Fondation - & GT; Couche de la couche - & GT; plafonné, de telles étapes ne sont pas aussi petites que la sécurité des ménages, la qualité de la maison de la maison doit également être garantie, la seule différence est la matière du bâtiment, la fondation est une Ciment en acier ou pierres, les murs utilisent du bois ou du ciment en bois ou en brique; bien sûr, les détails matériels et architecturaux seront toujours différents, en fonction du coût donné par l'utilisateur; il reste un point dans lequel l'entrepôt de données est disponible à partir de centaines de GB à quelques tubines n'est pas égale, même si les RDBM prenant en charge ces données sont, peu importe la puissance, il est toujours inévitable d'envisager la conception physique de la base de données.
Suivant, le modèle de concept de l'entrepôt de données (modèle économique), modèle logique et modèle physique de l'entrepôt de données sera détaillé.
Deuxièmement, la conception de modèle de concept
Le travail à remplir dans le modèle concept est le suivant:
Définition de la limite du systèmedétermine le domaine principal principal et son contenu
Déterminer La relation entre le domaine sujet
Le modèle concept est conçu pour établir un modèle conceptuel relativement ferme basé sur la base de données d'entreprise d'origine. Étant donné que l'entrepôt de données est un ensemble de données formé en intégrant et en réorganisant les données dans le système de base de données d'origine, la conception du modèle conceptuel de l'entrepôt de données doit d'abord analyser le système de base de données d'origine et voir "Il existe" dans le système de base de données d'origine "Quoi" «Comment organiser» et «Comment distribuer» », puis déterminez comment établir un modèle conceptuel du système d'entrepôt de données. D'une part, via le document de conception de base de données d'origine et le mode relation de base de données dans le dictionnaire de données, vous pouvez avoir une compréhension complète et claire du contenu dans la base de données existante de l'entreprise; d'autre part, le modèle conceptuel de l'entrepôt de données Face à la société est à l'échelle mondiale, qui fournit une vue concept unifiée pour l'intégration des données de chaque base de données axée sur les applications. Le modèle de concept est conçu pour être conçu à un niveau abstrait plus élevé, il n'est donc pas nécessaire de prendre en compte les conditions techniques spécifiques lors de l'établissement d'un modèle conceptuel.
Data Warehouse est une base de données orientée de la base de données, nous ne pouvons pas obtenir des besoins détaillés et clairs dans la conception de l'entrepôt de données, mais une baseLa direction de la directionnalité est toujours devant le concepteur:
Quels sont les types de types de prise de décision?Quel est le problème?
Quel type d'information avez-vous besoin?
Pour obtenir ceci Les informations, quelles parties du système de base de données d'origine doivent être inclusesDe cette manière, nous pouvons délimiter une limite de système actuellement rugueuse, concentrez-vous sur le développement de la partie la plus nécessaire. Ainsi, dans un sens, le fonctionnement de la définition des limites du système peut également être considéré comme une analyse de la demande des systèmes d'entrepôt de données, car elle reflète la demande de décideurs de définir la définition des limites du système.
2, Déterminez le domaine principal principalDans cette étape, afin de déterminer le domaine ci-dessus, puis effectuez le contenu de chaque description de domaine en question de l'application de l'entrepôt de données. Technologie de modélisation dans l'industrie XX, la description comprend:
Le bouton de code commun du domaine de la matière; la théorie entre le domaine de la matière;
Groupe d'attributs complets.
La construction du modèle conceptuel est généralement le résultat du titulaire des propriétaires, des experts de connaissances du secteur des entreprises et des experts informatiques analyses de la demande de système d'entreprise de classe d'entreprise. Habituellement, les décideurs d'entreprise ont leur propre stratégie et leur planification de développement, ils rapportent des rapports d'analyse rapportés par divers gestionnaires ministériels, et ils savent également qu'ils peuvent comprendre les fonctions de leurs propres systèmes d'information d'entreprise, mais ils ne pourront peut-être pas savoir tous Fonction de chaque système d'entreprise. Et chaque partie des données, les décideurs ne sont pas des experts en information, ils sont plus préoccupés par la performance des entreprises, des passifs d'actifs, des bénéfices, des avantages, etc. Indicateurs de base.
Tous les directeurs du département comprennent souvent le système d'information de leur propre secteur et hiérarchisent leurs propres intérêts au cours de la planification du système d'information. Chaque département construit souvent ses propres systèmes d'information indépendamment, ni il est impossible de étiquette de l'angle global de la société et des autres systèmes d'entreprise, tels que le système ERP, le système MIS, le système CRM, etc qui provoque le déséquilibre entre entreprises dans le développement des systèmes d'information d'entreprise, ce qui a conduit à des effets dits îlots, Lira que les subordonnés fournissent un rapport d'analyse, puis résument, formant un rapport ministériel, mais le résultat final est que chaque ministère rend compte de ses propres performances commerciales, mais il manquait toujours d'un numéro unifié cohérent.
Les utilisateurs normaux sont plus préoccupés par un certain type et un rapport relié au travail, y compris la précision des données du rapport, les styles du rapport et les détails du format d'icônes. Le service informatique est responsable des entreprisesLe budget et l'achat du système informatique de l'industrie, mais parce que le département fonctionnel est différent, il est incapable de comprendre les activités de chaque système d'information.Il existe une telle phrase: si vous souhaitez mettre en œuvre un système d'information d'entreprise, vous devez avoir la capacité de servir de cette société
. Cela nécessite la personne responsable de la part de la Société de la Société et des capacités de capacité et de gestion très coordonnées; de sorte que le rôle des experts de la connaissance et des experts informatiques doit être introduit dans le domaine commercial (c'est généralement quels consultants), ces personnes ont souvent relativement Contexte principal de l'industrie, riche en mise en œuvre indépendante de l'expérience de la construction du système d'information sur l'industrie, comprend les normes et normes générales les plus avancées et les normes générales de l'industrie, tout en combinant les systèmes d'information d'entreprise existants, ainsi que la stratégie d'intégration d'entreprise sur la base Le modèle d'entreprise est proposé pour aider les entreprises à améliorer la prise de décision pour soutenir les capacités analytiques, mais ces modèles ne peuvent pas être trop supérieurs, trop de précharge, cela signifie que l'opérabilité réelle n'est pas disponible. Bien sûr, je ne peux pas rester au niveau actuel de la construction de l'information dans la société, sinon cela perdra le sens.
Troisièmement, la conception du modèle logique
La modélisation logique est une partie importante de la mise en œuvre de l'entrepôt de données car elle peut refléter directement les besoins du service des affaires, et il y a un rôle important dans la mise en œuvre physique du système. Elock le plan de données du personnage par l'entité et la relation.
Dans cette étape, le travail est principalement:
Analyse du domaine thématique riche, déterminer le sujet à chargerDéterminer la division de niveau granulaire
Déterminer la politique de segmentation des données
Définition du mode de relationDéfinition du système d'enregistrement
Le résultat du modèle logique consiste à définir la mise en œuvre logique de chaque sujet actuellement chargé et à enregistrer le contenu du contenu associé dans l'entrepôt de données. Dans , y compris:
Division de la taille des particules appropriée Politique de division de données raisonnable
Division de la table appropriée
1, analyse dans le Modèle concept
Dans la conception du modèle conceptuel, nous avons identifié plusieurs domaines thématiques de base, mais la méthode de conception de l'entrepôt de données est un processus de raffinage progressivement et est généralement une fois. Un sujet ou un certain nombre de sujets sont progressivement complétés. Par conséquent, nous devons analyser plusieurs thèmes de base déterminés dans l'étape de conception du modèle conceptuel et sélectionnez le premier domaine de sujet à mettre en œuvre. Il est nécessaire de considérer qu'il choisira le premier domaine thématique.Le domaine thématique peut s'appuyer sur un système applicable; il est également suffisamment petit pour mettre en œuvre et mettre en œuvre rapidement. Si le domaine de sujet sélectionné est très grand et compliqué, nous pouvons même développer un sous-ensemble significatif. Dans chaque processus de rétroaction, une analyse du domaine en question est soumise à. Détails spécifiques à la mise en œuvre nécessite une communication avec l'unité commerciale AAA et le centre d'information.2, Division hiérarchique granulée
Un problème important à résoudre dans la logique de l'entrepôt de données consiste à déterminer le niveau de division granulaire de l'entrepôt de données et le niveau granulaire est divisé de manière appropriée. Si ou pas directement affecte directement la quantité de données dans l'entrepôt de données et le type de requête approprié. Étant donné que la base de données en question répond aux exigences OLTP d'entreprise de niveau d'entreprise, les données de catégorie les plus belles doivent être enregistrées et la taille multi-particule est déterminée en fonction des exigences de la requête de l'unité commerciale afin d'améliorer la vitesse de requête complexe.
3, Déterminez la stratégie de segmentation des données
Dans cette étape, la norme permettant de sélectionner la segmentation de données appropriée, considérez généralement les facteurs suivants: Données Le montant [NON enregistré Nombre d'enregistrements) , la situation réelle du traitement de l'analyse de données, simple et capable de la stratégie de la division de granularité. La quantité de données est le facteur principal qui décide si la segmentation des données et la manière de diviser; le traitement de l'analyse de données est une base majeure pour la sélection des critères de segmentation des données, car la segmentation des données est étroitement liée au traitement de l'analyse de données; nous devons prendre en compte la segmentation de données sélectionnée. Devrait être la nature, facile à mettre en œuvre: considère également le niveau de division de la taille standard et de particules de la segmentation de données.
4, Définition du mode relationnel
Chaque sujet de l'entrepôt de données est implémenté par plusieurs tableaux, et ces tables dépendent du sujet que le bouton Code est connecté pour former une rubrique complète. Lors de la conception du modèle de concept, nous avons identifié le thème de base de l'entrepôt de données et fait un bouton de code commun, un contenu de base, etc et nous pourrons diviser le sujet sélectionné de la mise en œuvre du courant sélectionné. Pour former une pluralité de tables et déterminer le mode de relation de chaque table.
Quatrième, design de modèle physique
Le travail effectué est basé sur la capacité, la complexité, les ressources de projet et les projets d'entrepôt de données lui-même. Le cycle de vie logiciel détermine le matériel et la configuration logicielle du système d'entrepôt de données, le mode de conception hiérarchique de l'entrepôt de données, la structure de stockage des données, détermine la stratégie d'index, détermine l'emplacement de stockage de données, détermine l'affectation de stockage, etc. Cette partie doit être mise en œuvre par le gestionnaire de projet et l'architecte de l'entrepôt de données.
Détermine le modèle physique mis en œuvre par l'entrepôt de données, obligeant les concepteurs à faire ce qui suitPlusieurs aspects:
1, déterminez la ressource de projetSelon les exigences du budget et des entreprises, la période de coût du projet est mentionnée dans l'expérience du projet précédent entrepôt de données. Estimation des ressources. En ce qui concerne l'estimation du cycle de projet, sur la base de la fonction et de l'estimation de la fonction ETL, le processus ETL occupe 70% de l'ensemble du projet d'entrepôt de données; le processus ETL est principalement basé sur la source & lt; = & gt; but différent des points de fonction différents ont des points de fonction différents. La complexité, par l'intermédiaire de l'expérience passée de projet et une évaluation d'experts, puis selon la partition du cycle de vie du logiciel, elle peut être effectivement apprise le cycle global du projet.
À propos de l'estimation du personnel, principalement sur l'expérience de travail, l'alphabétisation et la capacité de maîtriser la nouvelle technologie et de considérer la sauvegarde du personnel du flux de personnel. Collaboration, chaque entreprise informatique devrait avoir une riche bibliothèque de compétences et de ressources humaines. Lorsque la ressource de projet rencontre des goulots d'étranglement, vous pouvez envisager une collaboration.
2, Déterminez la configuration logicielle et matérielle
Les différents projets d'entrepôt de données sont différents des autres systèmes d'entreprise, en particulier dans la capacité de données, car l'entrepôt de données est une stabilité historique basée sur la rubrique est déterminé, il est intégré aux données historiques passées. Si le projet ne considère pas, cela provoquera bientôt des conséquences catastrophiques.
L'estimation de la capacité de l'entrepôt de données doit être prévisible, déterminez d'abord la période de stockage des données de détail de base, la valeur de longueur moyenne de champ du tableau associé * Nombre d'enregistrements par an * (Croissance attendue La croissance annuelle attendue), puis plus une redondance de 20% et une redondance de 20% réservée au disque, nous n'avons pas besoin d'obtenir la capacité attendue de l'entrepôt de données.Les capacités de traitement de l'entrepôt de données et la capacité sont étroitement liées à la performance de la base de données relationnelle spécifique, comment trouver l'équilibre entre Oracle, SQLServer, DB, Sybase ou même MySQL, doivent envisager le budget réel Également dans les besoins réels. En ce qui concerne la configuration du matériel, il est nécessaire de lire les fonctionnalités du logiciel, de répondre aux exigences de traitement réelles et d'étendre certains espaces pour le futur système.
3, Conception de stockage de l'entrepôt de donnéesL'entrepôt de données utilise généralement une conception en couches, c'est-à-dire une couche ODS, une couche d'entrepôt de données, des données de couche d'entrepôt de données attendent; la superposition de l'entrepôt de données estFlexible, il n'y a pas de mode fixe, tout dépend de la situation réelle.
La couche ODS stocke les données de transaction d'origine acquises à partir du système d'origine, uniquement les données dans une certaine période, tandis que la SAO prend en charge l'affichage de certains rapports en temps réel. La couche d'entrepôt de données permet d'économiser des données commerciales historiques passées par le nettoyage, la conversion et la réorganisation, et les données resteront plus longues (5 à 10 ans) pour répondre aux besoins de la plus grande granularité du système.
Le niveau d'agrégation de l'entrepôt de données calcule et analyse l'indice KPI prend en charge une requête d'indicateur pour résumer le niveau des transactions, augmentant le résumé de la vitesse d'affichage des données KPI et de la gagnez de temps. Sauvegarder des données historiques plus longues. Les marchés de données sont des sous-ensembles logiques ou physiques d'une donnée ou d'un sous-ensemble physique d'entrepôts de données individuels établis séparément sur des secteurs ou certains types de sujets d'analyse spécifiques.
4, mode d'entrepôt de données
Stratégie d'extraction de données
Développer une base de données systématique de la base de données ETL Schéma d'extraction de l'ETL remplit le traitement de l'entreprise, l'analyse du système d'entrepôt de données et L'analyse de la prise de décision de la base de données de thème et doit s'assurer que la performance du système commercial ne peut être affectée.
Politique de conversion de données
La conversion de données fait référence à la conversion de données aux données source extraites du système de service en fonction des exigences du modèle de système de base de données de matière, de laver, de la scission,etc pour assurer la cohérence et l'intégrité de différents systèmes, différents formats et chargez la base de données de thème selon les besoins.
Politique de charge de données
Du système de service, les données converties sont chargées dans le système de base de données d'objet.
Vérifiez
Modèle d'étoile
Les données sont généralement stockées dans un modèle d'étoile. Les modèles d'étoiles sont constitués de dimensions et de faits, généralement pas un paradigme normalisé dans le système d'entreprise. Dans la couche principale, un certain nombre de modèles d'étoiles sont généralement établis en réponse aux keytics.