Préface
Big Data ERA, en tant que maître des données, nous devons non seulement utiliser de mieux utiliser des données, mais également mieux gérer les données. L'entrepôt de données est cet ensemble de solutions pour gérer et organiser des données. Cet article tente de décrire les divers fosses et points clés qui seront concernés dans la construction de l'entrepôt de données d'une perspective empirique, dans l'espoir d'aider les petits partenaires de la route d'entrepôt de données.
Remarque: Cet article n'explique pas les différents concepts de l'entrepôt de données en détail, ni ne donne divers code d'échantillon pour expliquer la construction des entrepôts de données. Détail.
En premier,
Veuillez comprendre la différence entre l'entrepôt de données et la plate-forme de données
L'entrepôt de données que nous disons souvent est non seulement indépendant de l'accès des données, du stockage des données et des calculs de données, il comprend également la gestion des données, le moule de la construction de données et l'exploitation minière. Par exemple, la gestion des métadonnées, la modélisation de la dimension et l'analyse OLAP sont ce que nous devons envisager lors de la construction d'entrepôts de données.
Planifiez votre entrepôt de données à l'avance
Warehouse de données est le module de base de la société Le système de données et l'entrepôt de données n'est pas bon, mais cela ne peut pas le faire. Par conséquent, il est préférable d'avoir une certaine planification de la période précédente de la conception du système de données, même si la table la plus simple et la spécification des spécifications peuvent apporter de grands avantages.
De plus, du point de vue du développement des données, il existe également une réflexion sur l'entrepôt de données lors de diverses exigences de traitement de données temporaires et d'essayer des couches intermédiaires abstraites de données abstraites, de sorte que la société et aide avec votre propre croissance.
Si le développement rapide de l'entreprise ne peut pas vous laisser trop de temps pour mettre en œuvre Un entrepôt de données parfait, vous pouvez envisager d'atteindre un entrepôt de données léger au cours de la période précédente, apportant autant de prestations maximales autant que possible. À propos de cet entrepôt de données léger, suggestionLes points suivants sont donnés:
2. Déterminez la spécification de la table exécutable et de la dénomination de champ
4. Système de gestion de métadonnées de construction, ou construire une bibliothèque de documents, fournir une documentation pour la table intermédiaire
4
Ne laissez pas la scène de l'entreprise
Faire des données doivent rappeler de fermer votre entreprise, bien qu'il existe de nombreux besoins temporaires et de duplication, Mais cela peut créer efficacement de la valeur.N'oubliez pas de ne pas penser que vous pouvez aller à l'entreprise pour faire un ensemble d'entrepôts de données, nous pouvons concevoir un certain niveau de l'entrepôt de données sans besoins professionnels, mais les données ultimes axées sur les entreprises seront comprises. en relation.
5,
Au début de la construction de l'entrepôt de données, divers documents devraient être progressivement obsolètes, tels que des documents de conception modèle, des documents de spécification de dénomination de champ, des documents de spécification de développement SQL. Le document est le mode de réalisation le plus intuitif des précipitations d'entrepôt de données, qui fait également partie de l'accumulation de la technologie. La chose la plus importante est que si le système de métadonnées n'est pas formé, il est nécessaire de précipiter le contenu de la table intermédiaire dans l'entrepôt de données au document, essayez de faire un document de tableau un. C'est un excellent avantage, qu'il s'agisse de la perspective de gagner des coûts de communication ou d'accumuler une accumulation d'équipe, plus ou complétant le point de vue du KPI.
Dès que possible, la gestion de la qualité des données
Dans les meilleurs délais, le contenu de la qualité des données La gestion est disponible dès que possible, n'attendez pas que le problème de la qualité des données soit noté après un grave accident de données. En ce qui concerne la surveillance de la qualité des données, s'il n'ya pas assez de temps et d'énergie pour effectuer un ensemble complet de systèmes complets, vous pouvez commencer à partir des points suivants, donc au moins vous avez une protection de base de vous-même:
2, surveillance et alarme d'indicateurs commerciaux importants
3, les principaux processus métierSurveillance et alarme de données Plus Tableau de vue
Les scénarios suivants peuvent envisager d'utiliser des tableaux de vue:
1, la table a souvent les besoins du champ2 , le calcul de la table changera et il est nécessaire d'exécuter plusieurs données en parallèle et un point à temps est commuté.
3, la table peut être des paires de personnes différentes ou le ministère fournit des services, j'espère que les champs peuvent être lus par différentes personnes ou département
La vue est principalement la scène de la structure de la table change, la modification de calibre et la gestion de l'autorité, ne pas abuser et augmenter les coûts de maintenance.
Huit,
Considérons votre développement de carrière Ne soyez pas enterré dans l'ETL , vous pouvez avoir grossièrement des affaires et des compétences en une demi-année ou une année, mais vous ne pouvez pas développer si longtemps. Maintenant, la plate-forme open source est relativement mature. Pendant longtemps, je vais affaiblir ma profondeur technique. S'il n'y a pas d'expérience de projet liée à une excavation de données, il est facile d'être éliminé dans l'entretien.
Par conséquent, il est recommandé que les petits partenaires soient développés par les données. Si vous avez un emploi dans près d'un an, il fait principalement ETL avec SQL, puis il y a une petite crise, réfléchit souvent à moi-même. Existe-t-il une croissance d'une croissance et si la compétitivité fondamentale a de l'argent.Si certains sont quelque peu une carence, on peut envisager de développer certains efforts dans l'entrepôt de données, l'exploitation minière de données ou la plate-forme principale.