Je me souviens qu'il y avait un prédécesseur et j'ai déjà dit: "Les données sont livrées en tant que données à déchets et c'est aussi une donnée à ordures."
Dans l'environnement actuel, nous incluons généralement de nombreux services de système différents (de nombreux secteurs d'activité auxiliaires de commerce électronique avec le système de valeurs mobilières, le système après-vente, les achats du système d'achat, les systèmes CRM, etc. Ces systèmes font souvent défaut, redondant et s'ils utilisent ces données pour effectuer une analyse de données s'ils utilisent ces données pour effectuer une analyse des données.Par conséquent, il est nécessaire de disposer d'un produit de produit pour intégrer des données et des entrepôts de données en tant que tel produit
Pour comprendre comment construire un entrepôt de données, il faut d'abord comprendre le jeu d'épaule de l'entrepôt de données:
Données d'étalonnage
Données intégrées
Les données de sortie
Sur la base des points ci-dessus sont nécessaires pour gérer et chaque couche est divisée en main-d'œuvre et les données sont traitées différemment et des données dans l'usine sont générales, deQui garantit la vie des données. Écologique.
Premier. L'architecture globale du vaste système de données
L'entrepôt de données n'est pas une personne existentielle indépendante, mais intégrée à l'ensemble du système de données volumineux - en d'autres termes, des entrepôts de données tels que Human Heart, tout le monde n'a qu'un seul cœur sans un autre orgue , incapable de survivre seul.
Grande architecture de données illustrée à la figure:II. Système source
Les données de données peuvent être interprétées comme un système de collecte de données.
Comme indiqué sur la photo, il est basé sur le grand système de données dans les activités de commerce électronique. Par conséquent, les données peuvent être divisées en données d'entreprise et aux données comportementales de l'utilisateur. Son système source est de nombreuses commandes finales liées aux activités de commerce électronique. Les systèmes d'inventaire et d'autres systèmes d'entreprise et les données comportementales des utilisateurs sont apportés au centre commercial avant.
III. Couche de données originale
Comme le nom indique, les données d'origine du système d'alimentation sont stockées, les données soi-disant données brutes - signifie que les données n'ont pas été traitées.
Ce niveau est un peu redondant, mais il a été examiné:
1. L'entrepôt de données est séparé du système d'entreprise
Entrepôt de données de données, les exigences en temps réel sont Pas élevé et précis, le type de nettoyage doit être plus élevé, le script est donc nettoyé. Si chaque donnée est transmise à l'entrepôt de données en temps réel, la fréquence de scripts d'application très élevée et de ressources système occupées a également augmenté.
2. Partagez la tâche de signaler un système d'entrepriseLes ressources matérielles utilisées par les bâtiments d'architecture de données importantes sont relativement élevées. Et les systèmes d'entreprise ne soutiennent généralement que le développement continu des entreprises, de la performance, ne peuvent souvent pas supporter de grandes Rapports de volume de données. Par conséquent, la couche de données d'origine peut transporter cette fonction et la performance en temps réel du système de transmission de données système d'entreprise également.Assurez-vous que les données sont exportées à partir de la couche de données d'origine conformément aux besoins de l'entreprise pour signaler en temps réel.
En général, l'entrepôt de données peut être divisé en trois couches: couche de données de base, classe de thème, classe de modèle
1. Couche de données Basic
. La couche de données d'origine est transmise à la base de données du jour de la journée et l'entrepôt de données est stocké dans le format du jeu de format de la feuille de données, formant des données. Données de la couche de données.
Qu'est-ce que l'ETL?
ETL est: Ajouter, Transfert, Télécharger - Simple, Nettoyer les données. Premièrement, extraire des données, réduire les données de sauvegarde, les données d'erreur et les données vagues pour supprimer, remplir, modifier et remplir le panneau de base de données qui a défini le jeu de table en fonction de la création de la création de règles. Soulevez une châtaigne:Du commandes de données à partir du système de commande, le nom du client est très diversifié, le même client, le nom de la majuscule, le nom de la majuscule minuscule , ordres ou commandes ou même aucune information connexeLes biens (bien sûr sont le patrimoine historique du système d'entreprise). À ce stade, les gestionnaires de données doivent comprendre la "fosse" de ces données et le gestionnaire de produits correspond au système d'entreprise discutera de la manière de gérer ce lot de données, de déterminer le nettoyage de la logique (par exemple: tous les noms de traduction en lettres minuscules, si le Nom du client, adresse, numéro de téléphone est identique et le même client est classé et le programme est nettoyé en fonction de la gestion du produit de la règle de soumission.
2. Classe à thème
Nettoie les mêmes données que Nettoyage, jetant de tout, nettoyer les mauvaises choses, mais ne signifie pas que les données complétées.
La construction de classes de thème relativement complexes et de construire des règles principalement pour voir les besoins futurs et la compréhension des gestionnaires d'entrepriseLa société est une société de société en tant que grande entreprise de distribution de détail. Il existe donc généralement une commande de vente pour CLes détaillants et les détaillants commanderont à côté des magasins de détail, des commandes de détail à côté des utilisateurs finaux. À ce stade, chaque niveau de niveau est une erreur et est dérivé de différents systèmes. La structure de la table de chaque commande est complètement différente. En conséquence, on ne peut pas être vu de la chaîne totale au flux de chaque élément du canal et ne peut pas surveiller l'effet de transformation spécifique de chaque élément en temps réel. Vous devez donc commander à chaque niveau thumb utile par sujet (premier ordre, ordre secondaire, trois ordres) et mettre en place une relation qui permet à ces trois personnes de former une chaîne.Soulever une châtaigne:
3. Classe de modèle
Données de la classe de modèle, ce qui signifie qu'ils deviendront éventuellement «shell», le transmettent à la plate-forme d'analyse de données, la classe modèle est donc la plus importante à combiner Données thématiques dans le modèle d'analyse de données.
Supposons que nous ayons besoin de refléter différents produitsDans différentes zones de différentes zones sur la plate-forme d'analyse de données, elle doit être utilisée comme table la plus basique de la classe modèle. Tables de clients, échantillons de produits, données de détail connexes divisées par région + produit + taille spécifique des clients. Chaque client correspond à chaque produit, chaque client, selon ce résumé des données, un modèle de région + Produits + caractéristiques des clients, sorties des plates-formes d'analyse de données, affiche les caractéristiques des clients de différentes zones, des marchandises différentes ..
Couche d'application de données Complètement non résiduèmec À propos de l'architecture de données importante car elle concerne le système d'entreprise en plus des nombreuses plates-formes d'analyse de données.Il convient de noter que les données de classe modèle se trouvent dans la structure étoile et l'indice élevé.
Comme les données et les données doivent souvent être liées, les opérateurs voient la répartition des ventes dans différents domaines et les opérateurs souhaitent souvent voir davantage de produits dans différents domaines. Caractéristiques, quelles caractéristiques des clients nécessitent une association forte avec la région.
5. Couche d'application de données
Situé ci-dessus mentionné ci-dessus, le système est plus commercial que les outils de collecte de données pour les entrepôts de données, mais il existe en même temps une demande si je mets un tel processus appelé Données.
Habituellement, les systèmes d'affaires soutiennent souvent les entreprises d'entreprise, capables de nombreuses et des interactions de données sont également nécessaires entre une variété de systèmes d'entreprise. Par exemple, les sociétés de commerce électronique auront généralement une plate-forme de trader front-end, qui gérera également la plate-forme de gestion auxiliaire. Ce n'est généralement pas le même sku défini à l'aide de deux plates-formes, il est donc nécessaire de synchroniser le backend SKU à l'avant vers la carte.
Pourquoi ne pouvez-vous pas donner deux systèmes interactifs directement?
Parce que les données ne sont plus propres, l'entrepôt de données doit être nettoyé et les données de sauvegarde peuvent être supprimées à la plate-forme du vendeur de pH.Huile d'abord.
2. Modèle d'analyse de sortieDonnées d'entrepôt de données, en plus de s'écouler dans le système d'entreprise, plus débitera dans des systèmes d'applications de données importants, à savoir: les données de grande taille, une analyse de données importante des données à ce stade. À ce stade, les données ont été nettoyées et le modèle est construit et une coque est formée et l'interface apporte à la plate-forme de données principale. En raison de cette analyse des données, des plates-formes d'affichage de données, davantage considérez simplement comment visualiser les données.
L'entrepôt de données ne crée pas de données, aucune consommation de données, si les données sont utilisées comme eau, il peut le comprendre dans un fabricant d'eau minérale: Exportation de l'eau responsable - & GT; Eaux usées - & gt; Emballage - & GT; Transport. Facile à faire, très difficile et seuls les gestionnaires de données ont des gestionnaires de données.