Pour la plupart des non-praticiens ou des débutants, l'entreposage de données et l'exploitation des données sont deux concepts faciles à confondre. Il y a une métaphore de l'image: Si l'entrepôt de données est meilleur qu'une grande fosse à mines, l'exploitation minière des données est l'œuvre d'exploitation des dossiers. L'exploration de données a besoin d'une très bonne base de données. Il n'y a pas de données riches et complètes. Il n'est pas bon à creuser. de. On peut dire que l'entrepôt de données constitue la base la plus idéale des mines de données. L'auteur est engagé dans l'industrie de l'entrepôt de données depuis de nombreuses années, vous donnez d'abord une brève introduction à ce qui est un entrepôt de données.
afin de convertir des données très importantes et complexes en informations utiles, d'abord, ce qui est nécessaire de collecte efficace des données, puis de la L'entrepôt de données est entré en cours. L'entrepôt de données est un environnement, pas un produit; l'entrepôt de données est le sujet, la collecte de données intégrée, relativement stable, qui est en constante évolution (heure différente), fournissant aux utilisateurs les données actuelles et historiques du support décisionnel. Les technologies de l'entrepôt de données sont destinées à intégrer efficacement les données opérationnelles dans un environnement unifié pour fournir un nom général de diverses technologies et modules d'accès aux données décisionnelles.
Les données de l'entrepôt de données sont toutes dérivées de l'extérieur. Elle ne "produite" pas de données, et elle ne nécessite pas de "consommation" de données. Sur l'architecture de données, l'entrepôt de données utilise généralement une architecture de modèle hiérarchique. Ce mode est le coût le plus bas, les indicateurs de base des données et des applications sont les meilleurs, et est conçu comme une architecture logique de l'entrepôt de données bancaires:
[
La première couche est une couche de données post / standard: cette couche est "Couche tampon de données", principalement dans cette couche. Enregistrez les données source les plus originales, certaines conceptions sont également Placé dans cette couche dans cette couche pour assurer uniforme, tel que le sexe, la date, le code de l'industrie, etc. dans les normes structurelles de données. D'autres conceptions ne fonctionnent pas sur cette couche, qui constitue le nettoyage et la mise en forme les plus élémentaires de données, garantissant ainsi la cohérence de la source des données et est traitée par les exigences de données suivantes.
La deuxième couche est la couche de données en question: cette couche est la couche centrale de l'entrepôt de données, couvrant le contenu, y compris de multiples sources de données, des systèmes de classification et des entités commerciales. Unifié, différent, différent Les relations relatives aux données système, etc forment des sujets différents tels que des clients, des institutions, des accords, des événements, des produits, etc pose la base de l'utilisation des données ultérieures.
La troisième couche est la couche de synthèse / marché des données, qui établit généralement une analyse plus profonde du système d'index pour certains secteurs d'activité dans cette couche. Le marché des données est basé sur la couche de données en question, mais n'est plus confrontée à des données entièrement en ligne, tout en faisant face à l'activité au niveau du ministère, et n'est confrontée qu'à un sujet particulier, tel que la construction d'un marché public de données, est de respecter la gestion des affaires. Les besoins appuient la dernière politique de gestion de support en intégrant des informations sur les données sur les clients publics, analysant davantage les informations sur la valeur des clients publics, le marketing clientèle de la société de meilleure qualité, le travail d'analyse de la gestion.
En résumé, l'entrepôt de données peut être considéré comme une très grande base de données qui stocke des données extraites de chaque base de données source, puis utilise ces données plus efficaces pour la société. Les décideurs fournissent un soutien à la décision . Parmi eux, le processus de conversion et de données d'intégration est le plus gros défi rencontré dans l'entrepôt de données. Il est nécessaire de convertir des données désordonnées en données de stratégie utiles dans l'entrepôt de données. L'entrepôt de données est considérablement réduit en réduisant le traitement et l'analyse de données répétitives en plaçant toutes les données au même endroit, facilitant l'accès.
Lorsque l'auteur est transformé, il appartient vraiment à une équipe minière de données. Après beaucoup de statistiques, les données que j'ai comprises plus tard et que les données que j'ai comprises sont comme suit.
L'extraction de données est une combinaison d'analyse statistique, d'intelligence artificielle, d'apprentissage automatique, de bases de données et de nombreux autres aspects des résultats de la recherche. Déclaration de la maîtrise des statistiques du congrès du peuple: d'un certain aspect, en fait, l'exploitation minière des données est extraite d'une grande quantité de données impliquées, et les personnes sont inconnues à l'avance, mais constitue le processus d'informations et de connaissances potentiellement utiles.
Le résultat de l'exploitation minière des données est inconnu à l'avance, qui a l'essence du rapport fixe, bien que le modèle d'application de rapport fixe existe de nombreuses années, en raison de ses caractéristiques très simples et intuitives,est toujours le principal point de gestion du personnel de direction à différents niveaux dans diverses industries.Force, mais les rapports fixes doivent d'abord connaître le style du rapport, il s'agit d'un processus d'hypothèses de vérification et d'exploitation de données est utilisée pour aider les utilisateurs à générer des hypothèses, aider les utilisateurs à les explorer.
Data Mining a une motion célèbre, mon doctorat. Également souvent mentionné ce passage, l'acquisition de données la plus laborieuse et le prétraitement des projets d'exploration de données qu'il prend jusqu'à 60% à 80%. de l'ensemble du projet. La situation réelle est vraie dans plusieurs projets de compréhension de l'auteur. Le prétraitement des données a pour but de convertir les problèmes d'extraction de données en données formatées, permettant ainsi d'utiliser divers algorithmes d'exploitation technologique d'analyse. Le traitement général des données a deux manières, l'une est de convertir des données en données d'analyse de base entièrement structurées et de convertir des données en format qualifié en fonction du formulaire de données pouvant être requis en fonction de l'algorithme correspondant.
La seconde est de couvrir les données impliquées autant de questions commerciales, puis de trouver la solution technique appropriée pour atteindre les résultats de l'exploitation minière. Cependant, les données changent en conséquence car le nettoyage, la conversion et le volume de données changent, cette analyse ne peut être qu'explorativement. Par conséquent, même s'il existe un entrepôt de données très mature, le prétraitement des données est toujours essentiel, il doit toujours prendre plus de la moitié des éléments miniers de données.
Le processus d'extraction de données est également un test constant. Le processus de tester constamment le mauvais, et un modèle correct ne peut être découvert que dans le processus d'extraction de données par des tests continus. Il On trouve souvent qu'un algorithme convient à un ensemble de données, mais il est défavorable à un autre ensemble de données, aucun algorithme ne convient à tous les problèmes. Par conséquent, l'exploitation minière des données est un processus de non-regroupement d'autres méthodes, mais dans le cas où l'objectif de service est relativement stable, le changement de données est relativement contraint, tel que le changement de données relativement stable. De.
On peut dire que l'exploitation des données est découverte à partir de l'entrepôt de données et l'extraction d'un processus masqué y est utile.L'exploitation minière des données est un processus de prise de données d'une grande quantité de données, et l'entrepôt de données est un processus qui rassemble toutes les données pertinentes et que l'entrepôt de données fournit une source de données plus large et plus large pour l'exploitation minière des données.Bien sûr, dans certains cas, l'entrepôt de données n'est pas construit, mais l'exploitation minière de données peut s'appuyer sur les données de source de service, mais la quantité de travail augmentera lorsque la source de données de la phase de prétraitement des données est intégrée. L'efficacité est également définitivement Pas aussi haut que élevé de l'entrepôt de données, car les données de l'entrepôt de données sont des données structurées pré-traitées, qui peuvent fournir une très bonne plate-forme de support pour l'exploitation minière de données et que les mines de données proposent également la construction d'entrepôts de données. Exigences plus élevées, à la fois sont promus.