Skip to main content

En ce qui concerne l'entrepôt de données, défini dans Wikipedia à pour les systèmes de rapport et l'analyse des données est la partie centrale de Smart Business Intelligence Business

. Lorsque l'entrepôt de données commence,

Il est uniquement conçu pour faire face au système d'assistance à la décision
nécessaire pour faire face à la gestion et ne fournit pas de support de données au côté de l'entreprise (rester ici tous les systèmes d'application).

Toutefois, dans le contexte de l'environnement de données volumineux, lorsque Hadoop Ecology est devenu un commerçant dans la signification réelle des données importantes, l'entrepôt de données est basé dans la combinaison non seulement peut prendre des décisions. Besoins soutenus - Il doit répondre aux besoins des statistiques de données sur certains services

.


Par conséquent, l'entrepôt de données actuel aura une nouvelle définition:

L'entrepôt de données dans un environnement de données important fait référence aux données globales (y compris le temps et l'espace: stockage d'historique et utilisation de tousZone commerciale). Un entrepôt de données différent est dans un environnement de données aussi important, tout en respectant les différents besoins des données analytiques internes et des sous-données d'entreprise.

Lundi, Historique de développement

L'entrepôt de données Azefefed passés par des périodes chaotiques, du temps de construction, changeant actuellement à maturité ...

2.1 Période de chaos

2.1.1 Contexte


Au début des étapes du réseau, absolument aucun concept numérique: aucun point de points, aucun nom de domaine de sujet et aucune spécification. Seule une bibliothèque ST dans l'ensemble du nid d'abeille et lorsqu'elle n'est pas nommée spécifiée, il y aura deux tables MySQL avec le même nom du même nom et les suivantes incluent la structure et les données de table de l'homme.



Aucun outil ETL, aucun concept de flux de travail (ni toutes les tâches sont un travail de processus), bien sûr, aucune plate-forme de planification, bien sûr , Ne fera pasIl existe des dictionnaires de données et des relations sanguines.

Toutes les tâches de traitement de données sont écrites dans Python et SQL naturel écrit dans le fichier Python sous forme de chaîne. Dans un grand projet Python, la dépendance entre les tâches est maintenue dans le fichier de configuration.

2.1.2 Painpoint


On peut dire qu'il existe une stabilité et un problème de disponibilité dans le manque de méthodes. Les partenaires commerciaux ont modifié la structure de la table, nous avons reçu des alarmes dans les premières heures des partenaires commerciaux; Les partenaires commerciaux ont modifié les valeurs énumérées qui ne connaissent pas en position, nous avons reçu des alarmes dans les premières heures de l'alarme; Allocation de ressources en grappes est déraisonnable, nous aurons une alarme au début de l'heure ... Alarmes anticipées régulières, des sorties de données retardées, des résultats de données incorrects, des analystes à des données ... Toutes les types de problèmes sont entrelacés, de concentrer notre pourri.

2.1.3 Action


avec développementLa rapidité de l'entreprise de louange, ce modèle de développement de la cheminée n'a pas soutenu de nombreux types de nombreux types de développement par jour. Demande d'échantillons. Bien qu'il n'y ait aucun outil commercial de l'ETL pour Informatica, la planification de planification et la surveillance de la surveillance est une tâche essentielle de données d'entrepôt. Par conséquent, au cours du dernier trimestre de 2016, il existe de nombreux types de plates-formes de données basées sur le développement secondaire du flux d'air et a également ouvert la route de l'entrepôt de données.

2.2 Temps de construction

Au début de 2017, il y avait une manière similaire aux spécifications de l'entrepôt de données. Avec le test interne de la plate-forme régionale de développement de données, la base de données est la première à se précipiter dans une nouvelle plate-forme pour manger des crabes.


En juin 2017, nous avons commencé à passer aux grandes plates-formes de données avant que les tâches de données ne soient maintenues par une série de fichiers Python. Le mouvement se poursuit jusqu'en août 2017, l'entrepôt de données augmente encore à ce jour....

La spécification de la base de données doit d'abord envisager

problèmes hiérarchiques

et une unité thématique

suivant
. Avec la construction continue de l'entrepôt de données,

Droits de données Dictionnaire de données attribuant des ressources de tâches

et d'autres besoins flottant.

2.2.1 Classes numériques

La superposée consiste à résoudre les organisations, au trafic de données des tâches ETL et aux processus de travail, à lire et à écriture, accès à différents besoins.

En général, nous divisons numériquement aux planchers de données, aux classes de stockage de données et aux classes de marché des données. En tant que couche ST des sites historiques, il est maintenu pendant le mouvement - il y a trop de missions désordonnées qui ne peuvent pas être supprimées et finalement, à la fin de 2017, c'est une écaille pressée. Le couteau est coupé. (1) Plancher ODS

Sol au sol (ISA) existe comme tampon entre le matériau diabolique DWarehouse de données OANH et ETL. Dans le nid d'abeille, il se comporte en tant que bibliothèque indépendante, toutes les tables de l'équipe de l'entreprise tomberont d'abord dans cette bibliothèque. Capacité de résolution de sol azannée ODS: 1)
Conflit

, 2)

Conflits entre les couches intermédiaires de construction et le développement des besoins commerciaux dans l'entrepôt de données inverse

.

Conflit

Parce que la source de données comporte de nombreuses bibliothèques, le nom de la table source est très normal. Par conséquent, nous devons ajouter un préfixe de sujet à chaque table pour éviter les conflits entre le même nom de différents domaines de sujet. Lorsque le même nom est dans le même nom de domaine, nous ajoutons au suffixe de la table supplémentaire.

La classe d'atterrissage résout le problème d'atterrissage des directives unifiées et suppose également la première bague ETL dans l'ETL global. Nos principes conviennent aux données et aux données commerciales de l'atterrissage, sont également une enquête et une inspection des futurs problèmes de données.

Conflits entre les besoins de la construction et des entreprisesNumérique

À cette époque, notre main-d'œuvre ne pouvait pas répondre à de nombreux besoins de données - la construction d'intermédiaires de données ne pouvait pas accélérer les besoins commerciaux de la vitesse. Par conséquent, une fois de toute urgence pour une entreprise directement en utilisant la classe cible et la demande de

ne transmet pas le nom de domaine thématique

.

Il y a une table très familière ici très familière et ils peuvent obtenir les données nécessaires très rapidement. Cela profite également à une exploration et d'effort rapide et à faible coût.

(2) DW DCD La couche d'entrepôt de données doit être mappée dans l'architecture de l'entrepôt de données de Kimball. Présentation de l'ISA, apportant la logique et la modélisation de l'ETL la plus complexe et constitue également une couche représentée dans le modèle de taille.

Décentralisation KIMBALLBLE ne le divisent pas sophistiquée. Dessinons une gourde et divisons toute la classe numérique en trois étages de DWD, DWB et DWS sur la base de pratiques plus courantes CL'industrie. Cependant, nous avons toujours dit que la frontière est claire entre les trois classes, ou nous pouvons dire que la frontière entre eux, mais les scripts d'entreprise complexes nous permettent de le faire. En raison du manque de classes de taille, nos tables de taille semblent être définies; En raison du manque de classes temporaires, nos résultats intermédiaires sont mélangés. Enfin, les notes en trois étapes ne complètent que notre flux de données aux spécifications - de DWD à DWB à DW. La hiérarchie est irréversible.

Le malentendu de la largeur

Si nous appliquons toujours à la taille dans un environnement de données important, nous avons introduit une largeur dans la classe numérique. La table dite largeur n'est pas une définition claire jusqu'à présent. Normalement, il s'agit de nombreuses tailles dans la table réelle, formant une table contenant un grand nombre de tailles et d'événements connexes. L'utilisation de tables dimensionnellesLarge avec sa propre commodité. Les utilisateurs n'ont pas besoin de considérer la relation avec les dimensions et n'ont pas non plus besoin de savoir quel compteur de taille et quel bord de l'information. Toutefois, avec le développement des entreprises, nous n'avons jamais présenté et déterminé la taille de la redondance de la largeur et ne peut pas être clairement définie lorsque la ligne inférieure de la largeur de l'excès de taille.
Une situation qui peut arriver est de répondre aux besoins d'utilisation, doit augmenter les colonnes continues existantes dans la table des dimensions à une carte large. Cela conduit directement à des changements fréquents dans la structure de surface du widget.

[3) DM FAIR


Data Mart sur la base du dividende DIVIN DOMAIN - Il agit comme un grand nombre de bibliothèques toxiques et non autorisé à dépendre des données entre chaque donnée. Chaque marché de données peut se développer et se développer sous le nom de domaine thématique.


Cette classe peut définir une histoire basée sur la largeurUtiliser. Mais si vous voulez coopérer avec Kylin, gardez le modèle STAR - cela peut maximiser les avantages de la division Kylin.

2.2.2 Thème de nom de domaine

Considérant que le nom de domaine de la rubrique peut partir du magasin de données ou de la couche de marché, envisager une dispersion sérieuse de stockage national dans un certain nombre de sujets. Comme l'administrateur du livre doit créer une classe de marqueur, le domaine thématique est une organisation qui organise des données pertinentes pour une recherche et une utilisation faciles.

parties du nom de domaine thématique basée sur la compréhension du niveau de l'entreprise. Division La zone thématique est très difficile au cas où vous n'êtes pas familier avec les entreprises mondiales. Un domaine thématique diversifié a également le développement de la même entreprise depuis le début d'environ dix à trois ou quarante aujourd'hui.

2.2.3 Conception des droits
La conception est divisée en niveaux de bibliothèque, niveaux de table et droits de niveau scolaire. La mise en œuvre de l'autorité peut être soumise au sujetP à la pratique de la construction de la sécurité dans la plate-forme de données ciblée.

(1) Privilèges de niveau de la bibliothèque : Dans la foire des données, nous utilisons les employés de domaine liés à la Library Power Control ont le droit de lire et de lire et de lire et d'écrire entièrement pour la bibliothèque. Des exceptions peuvent être contrôlées par des privilèges et des niveaux de terrain.


(2) Niveau de table privilégié
: Les privilèges de table sont principalement appliqués à l'atterrissage et au numérique. Les privilèges de niveau de la table sont également basés sur le domaine thématique. Les formes pertinentes de noms de domaine ont lu et des droits. Un processus d'approbation supplémentaire est effectué lorsque vous devez accéder à la table sur le domaine de la rubrique.


(3) Droits de niveau de champ Le niveau de l'école est principalement destiné à des champs sensibles dans la table. Nous avons divisé les champs sensibles en plusieurs niveaux et les personnes auront un processus d'approbation pour accéder à différents niveaux de niveaux de niveaux. Bien sûr, le processus d'approbation seraChoisissez une approbation différente en fonction du niveau de sensibilité du champ. 2.2.4 Dictionnaire de données

Le développement de l'entrepôt de données est indissociable de comprendre le champ de la table source. En avril 2017, nous avons commencé à planifier des dictionnaires de données. Le problème principal est résolu au moment où il manque de commentaires sur le terrain de données et qui surveillent d'importants changements scolaires DDL.

Depuis lors, toutes les commissions d'entreprise sont tenues de remplir. À la fin de 2017, toutes les nouvelles formes avec toutes les nouvelles tables appartiennent aux champs d'audit de l'heure système_AT et Update_AT. Un dictionnaire de données de vernis s'est progressivement développé dans la plate-forme de gestion des actifs de données d'aujourd'hui.

2.2.5 Tâche prioritaire

Dans l'environnement Hadoop, la tâche évite définitivement la relation entre le concours de ressources en grappes. S'il n'y a pas de règle de priorité, un grand nombre de tâches de fonctionnement, la fluctuation du temps de sortie est incapable de contrôler. Donc,Nous normalisons la priorité de la mission, cela rend la tâche hiérarchisée au niveau de la planification à entrer dans la file d'attente, ce qui facilite l'obtention de ressources.



2.3 Mature

Lorsque nous avons résolu l'entrepôt de données avec des spécifications après la fin du dinh et la disponibilité de la disponibilité, puis Les demandes sont considérées comme efficaces et faciles à utiliser


Avec le développement d'un détaillant similaire, la demande de plus de niveaux de données est plus urgente. Au cours du second semestre de 2018, nous avons commencé à créer des entrepôts de données de 0 à 1 dans les entreprises de détail. Les spécifications de l'entrepôt de données ont également eu plus d'évolution dans ce domaine des tests ... Récolte dans le "champ d'essai", examinons les problèmes qui peuvent survivre sur le marché. Nous avons donc apporté des modifications à nouveau ...

2.3.1 Sélection du modèle de modèle - Taille de largeur


lorsque vous expérimentez le tissu HLa taille plus l'expérience d'aujourd'hui, ce qui me fait croire que la dimension de modélisation reste le meilleur choix pour les entrepôts de données actuels. Battez le fardeau de l'histoire, nous avons clairement essayé la modélisation de la taille sur le domaine de la vente au détail et résume certaines de ses avantages et des widgets.

Dans le point de vue des considérations ci-dessus, nous avons toujours choisi d'utiliser le modèle de taille numérique standard. Modèle d'étoile. La table de largeur peut exister dans une classe de marché de données plus fiable.

2.3.2 Vérifiez les classes DW dans la première théorie de Kimball, elle a également mentionné et expliqué la zone d'organisation. Le rôle, à la période suivante, mentionné uniquement la couche d'affichage et la classe de destination se sont affaiblies dans une partie de l'ensemble de l'ETL.




Cette transformation est notre concept de relaxation:

de l'entreprise de niveau, le cœur de la L'entrepôt de données est d'afficher la classe et s'inclinerNiveau de service de qualité. Tout ce qu'Al et les normes, les classes, etc. sont fabriqués facilement et facilement à utiliser.


Les pièces à l'intérieur de la classe numérique ne sont pas décentralisées, c'est là que l'entrepôt de données commence à fournir des services après la modélisation et l'ETL. Par conséquent, la division de la classe numérique doit se conformer à plus d'habitudes utilisateur. La hiérarchie de DW n'est pas la meilleure, seulement le meilleur est le meilleur pour vous.

Sur la base de la théorie de la taille de la modélisation de l'architecture de bus, "taille appropriée" indépendamment de la vérité à travers les situations générales de la classe numérique. [1.23]

En outre, nous proposons deux types d'événements: modèle et table de polymère

. Donc, dans notre numérique, il y aura des preuves de la coupe et de la coïncidence

Nous avons passé des mots-clés pour plus de détails sur DWS (Service d'entrepôt de données), Catch Top à partir de là, notre table porte TFournisseurs de services déchirés. Nous avons passé des mots-clés pour les classes de polymères en tant que DWA (synthèse quotidienne de l'entrepôt).

Dans un environnement de données volumineux, nous ne suivons pas la théorie de Kimball, des transactions claires de suivi du contenu, des instantanés (instantanés) et des instantanés cumulatifs. (Photo cumulée) Trois types sont divisés. Bien que ces trois types soient généralement dans notre entrepôt de données, car les utilisateurs ne comprennent pas facilement les trois types de formulaires plus faciles à trouver le tableau souhaité sous forme de planifications et de tables de polymère.

enfin De nombreux résultats intermédiaires créeront certainement de nombreux résultats intermédiaires lorsque nous produisons des stores et des mètres de polymère. Tous ces résultats intermédiaires ne sont pas responsables de la fourniture de services - ils invisibles à l'utilisateur de l'entrepôt de données. Nous avons conçu une classe temporaire

pour stocker différents résultats pouvant être créés lors du traitement numérique. La classe temporaire est une bibliothèque dédiée CDéveloppeur HO Data Warehouse avec entrepôt de données supplémentaire sur la ruche. Il s'est engagé à surveiller les problèmes de problèmes dans le processus de production de données et à un espace hiérarchisé lors du nettoyage du stockage des données.

2.3.3 Spécifications de noms

Nous avons également de nombreuses spécifications de nommage, mais également sur beaucoup de trous. Par conséquent, unifiez la spécification du trou partagé avec vous.


(1) (1) (1) (1) Nom de la table de spécifications

Il existe deux types de méthodes de noms internationaux: méthodes d'identification solides et solides (Snake_Case) . Nous utilisons la nomenclature en forme de serpent - toutes les lettres minuscules et les mots sont séparés par des souligneurs.


Dans la classe de destination et la classe numérique, les mots-clés du domaine thématique sont inclus. Les villes de données sont physiquement isolées selon un nom de domaine thématique, il n'ya donc aucune exigence obligatoire dans le nom de la table. Dans la nouvelle classe numérique, nous avons utilisé les spécifications de la nommée de table plus claire.


La classe cible peut être appelée STG pour appeler SAO. Il n'est pas important, il est important que le nom des spécifications puisse atteindre rapidement un consensus parmi toutes les personnes concernées - cela inclut non seulement les développeurs numériques, mais également pour prendre en compte le nombre de personnes numériques. L'objectif ultime est de laisser les utilisateurs trouver des données qu'ils veulent être rapides et précises.


Signification du suffixe de la table de polymère

Nous voyons souvent que le suffixe de la table de polymère apparaîtra _di ou _df, i et f ici est d'exprimer Le montant et le montant entier représentent la journée, mais il dit toujours qu'il est clair que la taille des particules synthétiques du ciel est toujours en cours d'exécution une fois par jour.

La plupart des cas de recouvrement des coûts ci-dessus et de son cycle d'expédition conviennent, mais ont des exceptions: vous pouvez exécuter des données synthétiques dans la classe de classe toutes les heures pour observer la tendance horaire.

deboutVues de l'utilisateur, il ne se soucie pas du cycle de planification, qui ne s'intéresse que par la coïncidence de ce tableau. Calendar Cycle est un atout puissant lié au travail.

De même, à moins que ce tableau ne contienne que les données incrémentielles (que nous utiliserons le suffixe _Incr), l'utilisateur ne se soucie toujours pas de l'ETL augmente progressivement ou toute la quantité d'ETL.
Nous essayons donc de ne pas afficher des tables pour les utilisateurs avec des informations ETL sans rapport.

Y compris une louange, le suffixe de temps de la table de polymères ne représente que la taille des particules de polymère de la table, indépendamment de la méthode de traitement de l'heure de planification ou de l'ETL.



Icône similaire est notre paire d'exigences principales à nommer. Si les deux noms de champ sont les mêmes, leur signification sera la même; C'est-à-dire que si les deux noms d'école sont différents, leur signification doit être différente. Lorsque cette demande est placée dans une seule zone de thème, c'est trèsFacile à faire. Cela devient difficile quand il est étendu à tout le pays.

Lundi, le nom de l'école est évidemment une autre exigence. Un bon nom de l'école devrait vous expliquer. Si vous lisez les champs de l'école, vous ne pouvez pas comprendre le sens du sens ou même de la signification de l'école, on peut dire que ce champ n'est pas qualifié.

2.3.4 La spécification de l'organisation nommée la tâche et le processus de travail


est l'unité minimale pour former un processus de travail, mais également achevé une unité de développement minimale ETL et l'unité minimale de la tâche de coordination pour essayer d'échouer. Nous avons besoin d'une tâche qui n'écrit qu'une table cible et le nom de la table de destination doit être inclus dans le nom de la tâche.

Le flux de travail

est une unité minimale pour soumettre des applications, organiser une tâche définie avec des fréquences de planification communes corrélées. Notre organisation de travail semble être une année de fleurs antérieures avant les normes du processus de travail de l'équipeLes fonctions. Le processus de travail en désordre n'est également pas bénéfique pour la gestion et la maintenance des entrepôts de données. Par conséquent, nous avons organisé le même thème pour organiser la même hiérarchie et la même obligation du même cycle de planification.


2.3.5 Evolution du moteur de calcul

Outre la règle, nous passons constamment de la carte d'origine sur l'outil d'application des tâches en nid d'abeille. Cette période comprend également divers types de problèmes tels que la syntaxe et le comportement de certains HIVEQL et SparkSQL. Enfin, nous avons terminé plus de 90% des tâches nid d'abeille exécutées dans SparksQL. Plus de détails sur les combats réels SparksQL peuvent mentionner SparksQL dans une pratique et une pratique SparksQL dans la pratique (2). Mardi, le montant de l'entrepôt est toujours évolutif La normalisation est l'objectif de l'attente de la spécification de l'entrepôt de données. Une grande partie de la spécification normalisée est dérivée de flexibilité indispensable et de conflits entre l'utilisation de scènes complexes.


Calculs en double

Supprimez la répétition comme objectif de la normalisation des entrepôts de données - la normalisation supprime enfin des calculs répétés. Les calculs répétés provoquent non seulement la réduction des déchets et l'efficacité des ressources calculées, mais également causé de nombreuses exportations, faciles à utiliser, rendre les personnes confuses lors de l'obtention de données.

Toutefois, l'entrepôt de données inclut des grandes entreprises de notre société existent certainement des calculs répétés: entre différentes lignes de trafic, avec des calculs correspondants calibre de matériaux; Entre différents développeurs, il existe un cas dans lequel les données de même taille sont maintenues.


Nous avons donc commencé à envisager comment supprimer ce calcul répété, augmentant ainsi l'efficacité de l'utilisation des ressources de cluster.

Lorsque les utilisateurs vous demandent d'avoir une table, c'est vraiment un champ dans la table.

En fait, tous les besoins du nombre d'éléments sont des besoins de données dansUn champ de table spécifique.


Nous avons donc conçu un système pour enregistrer le champ de la carte de développement, reliant les champs adaptés à tous les calibres avec un indicateur. Il s'agit des premiers prototypes et hypothèses, nous appelons Indicateur Library .

3.2 Les problèmes stables sont toujours contestés


car l'ensemble de l'entrepôt de données basé sur des données commerciales, la stabilité de base Hadoop, la planification de la plate-forme close, la vérification de la qualité des données, l'absorption du journal à point intégré, des données auto-données , Inclinaison des données, optimisation SQL, etc., tout problème de points, conduira à la production de données de l'entrepôt, que ce soit. Par conséquent, la stabilité est toujours au centre de la protection de notre entrepôt de données.

3.3 Les valeurs de données doivent être excavées


3.3.1 Valeur numérique

Depuis longtemps, la nécessité de supprimer l'investissement et la production est très difficile, en particulier Mesurer la valeur de sortie. Mais sur les indicateurs de quantification du nombre lui-même, c'est un propriétaireNe peut pas être évité. La valeur de l'entrepôt de données tombera définitivement dans le niveau de données correspondant et la mesure de la valeur du niveau de support décisif est plus difficile que les données. Par conséquent, à ce stade, nous prévoyons d'essayer de revoir à partir du niveau de données, de l'utilisation des données finales et de la valeur de l'entrepôt de données.

3.3.2 Ball

Les produits BI sont certainement les principaux contributeurs les plus puissants des valeurs de données au cours de la dernière décennie, ce qui est également un entrepôt de données inévitable. Éteindre. Sujet. Pour les capacités de BI, nous ne promettons que
de fournir des données sommaires globales et des données détaillées locales

. En d'autres termes, nous ne fournissons pas de détails globaux dans les grands environnements de données - car personne ne fera réellement de données plus détaillées. Il existe également des produits de balle auto-développés existants nécessitant un composant visuel plus riche, associé à la cartographie des bibliothèques de modélisation pour prendre en charge les ciseaux de traitement des ciseaux et des gouttes, des fonctions avancées.Et davantage d'algorithmes d'exploitation d'algorithmes de mines de données, etc.

Sujets