L'importance et la signification stratégique des données sont incontesties. À l'heure actuelle, l'industrie a également atterri également de grandes stratégies de données dans le monde. Dans ce processus, notre question principale est la construction de la plate-forme de données, notamment la physique et la logique:
La construction de la plate-forme de données physiques comprend matériels, des outils de données et une sélection de technologies, d'achat et de construction de la technologie . En attente;La construction de la plate-forme logique de données inclut la conception de l'architecture de la plate-forme de données, la spécification de données, la mise en œuvre du développement des données et la maintenance , etc.
La plate-forme physique est construite pour acheter une solution d'entreprise indépendante mature, ou DIY (Achetez des plates-formes de serveur, de stockage et d'autres plates-formes de matériel et d'acheter des logiciels de traitement de données commerciaux et des outils ou des outils de traitement de données Open Open Source, Tels que Hadoop, la ruche, la bouilloire, etc combinées librement avec des plates-formes de données.
Cependant, la plate-forme de données est devenue une infrastructure clé pour un mécanisme et une organisation, qui est déjà aussi indispensable que «charbon hydroélectrique».
Puisqu'il s'agit de "charbon hydroélectrique", avez-vous besoin de "génération d'énergie" et de "approvisionnement en eau"? Pourquoi construire une plate-forme de données physique et être responsable de la maintenance? À l'heure actuelle, le développement de la technologie a effectivement donné une réponse négative. Les futures plateformes de données et de données seront comme le système d'entreprise (peut être des nuages publics, peut également être un cloud propriétaire). La solution de plate-forme de données sur le cloud est tenue d'être multiple.
Nous supposons un supermarché de détail à grande échelle de grande taille virtuel FutureAreauter
pour les objets (société de douane étrangère est Wal-Mart , Carrefour, Tesco, etc.), construire des entrepôts de données basés sur Hadoop. La raison pour laquelle le choix des entreprises de vente au détail, car tout le monde est très familier avec leurs affaires, y compris des formulaires commerciaux de la chaîne nationale, des processus de shopping de la caisse de registre, de la fourniture de marchandises, de la gestion des stocks de produits de base, etc.Et le futureAreauterealers exploite des milliers de supermarchés dans diverses villes du pays, en fonction de la taille de la ville, le magasin est différent, tel que la première ligne ou la clé de la deuxième minute, son magasin Mai Dix ou même des dizaines de jauges, dans une ou quatre villes ou quatre villes, peuvent n'en avoir qu'un ou même. Chaque magasin contient de nombreux produits contenant des produits d'épicerie, des nécessités quotidiennes, des fruits frais, de la viande, des légumes, des aliments congelés, des fleurs.
Par conséquent, pour le futuretailier, la plate-forme d'entrepôt de données est essentielle. Parce que la plate-forme de données est la prémisse et la base de ses données, les divers rapports de vente et les rapports d'inventaire générés par la plate-forme de l'entrepôt de donnéesC'est la base principale pour la gestion de la société et divers opérateurs de villes et des exploitants de magasins.
Quelle est la tendance globale des ventes de l'ensemble de la société?Existe-t-il une promotion de certains biens non obstrués?
Le client est-il perdu?
Quelque best-seller pour reconstituer les marchandises à temps pour choisir un produit auto-exploité pour maximiser le profit?
Celles-ci devront tous prendre en charge des données opportunes, précises et raffinées. Dans le même temps, pour le futuereeretailer, l'analyse des données antérieures n'est qu'un aspect et plus important pour les prévisions et l'analyse futures. Par exemple, les futures estimations de vente de marchandises et développent des programmes d'approvisionnement en conséquence. Avec la montée de la nouvelle vente au détail, les futurs consommateurs ont besoin de services et de produits plus personnalisés, comment fournir ces biens et services personnalisés aux consommateurs?
MA Dad a également déclaré: "
L'ère de commerce électronique pure s'est écoulée et la prochaine décennie est une nouvelle ère de détail". Pour les futursetailier, les futurs shopping peuvent être les scénarios suivants:
1) Un membre principal futurAreAbler, a acheté le type, le modèle, le temps, le mode de paiement des marchandises au cours des dernières années, des informations de base de la carte d'adhésion, L'adresse, les informations de contact et l'achat des membres générés de la note de grade de produit, la notation des consommateurs, l'évaluation de remboursement, etc. sont détaillées par la plate-forme de données.
2) Les membres entrent dans le supermarché ou lectent dans le parking de supermarché, le système d'identification de la plaque d'immatriculation de l'avenir, le système vidéo vidéo ou le réseau WiFi (si membre passe par téléphone mobile), les membres prédistant peuvent acheter une liste, bien spécifiquement générées. Promotion et informations préférentielles. Par exemple, le membre reprend un produit, vérifiez soigneusement le prix du prix des produits de base, mais n'a pas acheté, puis futurera recommandera un autre rapport coût-efficace avec le même paragraphe aux membres.
3) L'adhésion à la caisse enregistreuse et FuTureretailier prédira la durée de visite du prochain membre et à mettre à jour le plan et la liste des achats.
Tous les achats personnalisés intelligents ci-dessus doivent être pris en charge par la plate-forme de données.
Deuxièmement, la conception de l'architecture de l'entrepôt de données Hadoop
présente d'abord l'architecture logique de l'entrepôt de données basée sur Hadoop, dans la conception réelle des entrepôts de données Hadoop, généralement pour la maintenance, le coût de la performance et la commodité d'utilisation Considérations, les tables de l'entrepôt de données sont superposées.
La table de données du système opératoire de la source stocke généralement une copie, appelée
Couche ODS (Operation Data Store)La couche ODS est souvent également appelée zone de mise en scène, qui est une couche d'entrepôt de données ultérieure (c'est-à-dire basée sur la couche de table de fait et la couche de surface de la dimension basée sur la modélisation de la dimension KIMBALL et les données sommaires en fonction de ces faits et de ces tableaux de table) Source de données. Dans le même temps, la couche ODS stocke également un incrément ou une quantité complète de données.
La couche d'entrepôt de données (DW Layer) est le contenu principal de la plate-forme de données Hadoop. Les données de la couche d'entrepôt de données sont les données de la couche ODS via la génération de nettoyage, de conversion et de chargement de l'ETL. La couche DW de l'entrepôt de données Hadoop est généralement construite sur la base de la théorie de la modélisation de la dimension KIMBALL et assure la dimension de chaque sous-sujet par
dimension " et Bus de données
.Les données de la couche DW doivent être nettoyées, propres, cohérentes, normalisées et précises. Les utilisateurs en aval de la plate-forme de données utiliseront directement les données de la couche DW, tandis que les données de la couche ODS n'autorisent pas les utilisateurs en aval de les contacter et d'y accéder directement. En outre, dans la performance, le calcul de la répétition et la commodité, les données de la couche DW, à l'exception du plus d'étalonnage de l'étalonnage miniature basé sur le modèle de dimension KIMBALL (c.-à-d. DW COUCHE LA COUCHE MILLIT
) génère également une couche de données sommaires (c.-à-d.DW Résumé
).
La conception du résumé est principalement due à la performance et à éviter les considérations de répétition. Comment l'agrégat de l'entrepôt de données réel et résume principalement les dimensions, etc. et les besoins professionnels sont conçus conjointement. Sur la base de la couche DW, chaque partie de service ou département peut établir son propre Mart de données
, cette couche est généralement appelée calque d'applicationLes données de la couche d'application sont dérivées de la couche DW.
Different de la polyvalence des couches et des indicateurs DW, la couche d'application peut inclure ses propres indicateurs ou domaines spéciaux d'entreprise ou de département, mais si les secteurs transversaux et autres sont requis, les indicateurs publics de la couche publique doit être employé. et champs.L'architecture logique de l'entrepôt de données de la couche ci-dessus " ODS Couche → DA Couche → La couche d'application " est indiquée dans la figure:
Dans le projet réel, l'architecture en couches mentionnée ci-dessus peut avoir les avantages suivants: Modification du système de sources de bouclier, changement de système de l'ombre des utilisateurs en aval
: Si l'entreprise du système source change, la Les changements pertinents sont effectués par les niveaux DW à traiter, transparent des utilisateurs en aval, aucune nécessité de modifier le code et la logique de l'utilisateur en aval. Complexité du système d'entreprise Source blindée
: Le système source peut être extrêmement compliqué et le nom de la table, le nom de champ, la signification de champ peut être de cinq fleurs, via la couche DW pour spécifier et bloquer toute cette complexité, Pour assurer les utilisateurs de données en aval, utilisez la commodité et les spécifications de données. Évitez de répéter des calculs et du stockage
: le calcul répétitif de la logique utilisateur en aval est évitée par le leadership du résumé, en sauvegarde le temps de développement de l'utilisateur et l'énergie tout en enregistrant des calculs et du stockage. La maintenance de l'entrepôt de données : la conception en couches permet de résoudre une couche de problème uniquement dans cette couche et ne doit pas nécessairement modifier le code et la logique de la couche suivante.
Hadoop Data Warehouse Specification Conception
Pour une entreprise ou une organisation, les utilisateurs qui utilisent des données peuvent des centaines de milliers, comment réduire les coûts de communication de l'utilisation des données, comment réduire le risque de En utilisant des données en réglementant le comportement de tous, ces problèmes doivent être pris en compte.
Dans la pratique pratique, nous utilisons généralement des entrepôts de données pour y parvenir. Les spécifications de l'entrepôt de données incluent de nombreux aspects, tels que les spécifications de dénomination de données, les spécifications de développement, les spécifications de processus, les spécifications de sécurité et les spécifications de la qualité, etc les suivantes seront combinées à l'entreprise future à introduire des spécifications de dénomination, de développement et de processus courantes.
Spécification de dénomination
La spécification nommée est principalement divisée en spécifications et nommées sur le champ Normes de tableau nommées.
La spécification du nom de la table consiste à apporter les données que toutes les parties concernées ont une conscience commune, telle que la couche (SAO, DWD, DWS, ADS)? Quelle arène commerciale (vente, inventaire, promotion), etc. Quelle dimension (marchandises, acheteurs, vendeurs, catégories, etc.)? Quelle période (jour, mois, année, en temps réel)? Est incrémental ou complet?
Sur cette base, les constructeurs de plateformes de données devraient d'abord spécifier des abréviations anglais telles que des couches d'entrepôt de données, des secteurs d'activité, des dimensions courantes et des efforts de temps et donnent ici la spécification de nommage.
Quatrièmement, la spécification de développement
Les spécifications de développement sont principalement utilisées pour les normes et les contraintes des développeurs de données et des habitudes des utilisateurs afin de minimiser l'utilisation de données à l'aide de l'utilisation de données, tout en garantissant que les utilisateurs respectent les meilleures pratiques, le code de données Ce n'est pas seulement que c'est pour vous-même, et plusieurs fois, vous devez lire et désigner d'autres, surtout lorsque vous traitez de problèmes.
La spécification de développement comprend principalement les aspects suivants.
La classification et le stockage de la tâche de données principale (c.-à-d. La structure de répertoire est divisée)
: Comment le code public est stocké, le code personnel est stocké, le code et le code de produit sont classés, et ceci est requis dans le projet réel. Coordonner la planification et garantissent que tout le monde est observé afin que les utilisateurs puissent facilement trouver des éléments, des produits ou de chaque niveau de code correspondant (SAO, DWD, DWS, ADS).
Spécification de programmation de code
: Par exemple, la spécification du commentaire de la tâche doit contenir des spécifications d'alignement de certains du code, le développement du code. Meilleures pratiques : Quelques meilleures pratiques de la pratique de développement des entrepôts de données (telles que des quantités monétaires) doivent être utilisées dans une utilisation flexible de la partition de temps, des spécifications de définition de type de données, etc. Développer des spécifications pour contraindre le comportement de l'utilisateur s'assurer que les meilleures pratiques atterrissent.Cinquième spécification de processus
Les spécifications de processus sont utilisées pour normaliser le comportement du processus de développement afin de garantir la progression de la fourniture de données et la qualité, réduire les risques de livraison. La spécification de processus est principalement divisée en des normes de processus de traitement de la demande et des spécifications de processus de développement. Les spécifications du processus de la demande courante sont présentées à la figure:
Les spécifications de processus de développement commun sont illustrées:
FUTERETEREAILER DATA Pratique de construction
En tant que supermarché national de détail de détail, département fonctionnel du siège de FuTureretailer et aileron de la Ville La Ville a une forte demande de données pour leurs secteurs d'activité respectifs.
Nous avons introduit l'entrepôt de données construit par la théorie de la modélisation de la dimension kimball. Dans la modélisation de la dimension, nous utiliserons quatre liens pour concevoir l'entrepôt de données de chaque sujet d'entreprise (c'est-à-dire
Processus d'entreprise, définir la granularité, déterminer les dimensions et déterminer les faits ), tandis que la modélisation de la dimension Dimension
etArchitecture de bus de données
pour assurer la cohérence des données de la dimension sous-sujet.Divisez d'abord le thème de l'entreprise de FuTureAretailer, il est facileLe thème est divisé en Domaine de vente, domaine d'inventaire, domaine de service à la clientèle et champ d'approvisionnement , etc suivi de pour déterminer la table des faits et la table de dimension de chaque domaine de sujet .
Pour chacun des domaines ci-dessus, tels que les ventes, vous devez sélectionner des données de données
de la taille de particules fines , il est facile de déterminer la transaction de taille des particules de la fin des ventes. Data Domaine du billet de vente. La meilleure taille de particules du champ d'inventaire est le stock de SKU de produit, etc. Après avoir déterminé la taille des particules, les dimensions correspondantes ont également été déterminées fondamentalement. Mais nous devons déterminer quels domaines doivent être protégés et aplatir dans des dimensions connexes basées sur Hadoop contre des spécifications et des idées de conception plate.
La dernière étape consiste à déterminer quel type de table doit être déterminé et devrait-il être nécessaire? Est-ce une table de fait transactionnelle ou une table d'information sur l'instantané de cycle et un facteur d'instantané cumulatif? Comme avec la conception dimensionnelle et plate du tableau de dimension, il est également nécessaire d'inverser et d'aplatir la fréquence des champs de dimension à haute fréquence.
Le processus global de construction d'un entrepôt de données de construction de futureretailier est décrit. Ce dernier est également utilisé comme exemple avec un compteur de dimension de base et un facteur de vente. En conséquence, des raisons de conception, etc D'autres domaines de récits et de tables de dimensions peuvent être basés sur cela.