Skip to main content

Les grandes données elles-mêmes sont un phénomène au lieu d'une technologie. La technologie de données importante est une gamme de techniques de traitement de données pour gérer une grande quantité de données structurelles, semi-structure, structure et aucune structure avec des outils inhabituels, entraînant des arts de traitement de données approfondies pour les résultats d'analyse et de prédiction.


Le mode de réalisation complet de la grande valeur de données nécessite des technologies différentes. La technologie de grande vitesse de verrouillage comprend le stockage de données, le traitement, les applications, etc conformément au traitement de données important, il peut être divisé en une collecte de données importante, un grand traitement de données, un stockage et une gestion de données importante, un grand traitement de données, des données importantes. Analyse et creuser, affichant des données volumineuses, etc.


La technologie de collecte de données importante fait référence aux données RFID, données de capteur, réseaux sociaux de données interactifs et internet mobile Les données ou ont de la même manière ont différents types de structures, de semi-structures et de données importantes sans structure.

Parce qu'il existe de nombreuses sources de données diverses, des volumes de données rapides, une technologie de collecte de données importante est également confrontée à de nombreux défis techniques et fiabilité et efficacité des données de collecte doivent être garantis. Copier les données.
La source de données de données importantes comprend principalement des bases de données fonctionnant, des réseaux sociaux et 3 types de perceptions. La méthode de collecte de données utilisée est différente pour différentes sources de données.

II. Big Technologie de traitement de données


Techniques Avant de manipuler de grandes données adressant principalement à l'achèvement de la réalisation de données reçues, d'activités extraites et de nettoyage telles que le remplissage, le lissage, la consolidation, la normalisation et la cohérence de l'inspection.

L'objectif principal de l'extraction des données est de convertir ces données complexes en une structure unique ou facile à manipuler pour obtenir un traitement d'analyse rapide.

Normalement, la quantité de données de traitement de l'argent comprend 3 parties: le nettoyage trouvéIntégrera, intégrer les réglementations et les données de données et de conversion.

1. Nettoyer les données


Le nettoyage des données contient principalement des valeurs manquantes (attributs manquants), interférant le traitement des données (les données dans les données sont erronées ou déviées de la valeur souhaitée) et pas un traitement de données cohérent.

Les données manquantes peuvent être manipulées avec une constante globale, la valeur d'attribut moyen, capable ou ignorer directement des données.
Les données de bruit peuvent être divisées dans la case (package de données brutes, puis lissage des données dans chaque ensemble), clustering, contrôle d'artisanat informatique et régression.

La modification manuelle peut être effectuée pour des données incohérentes.


2. L'ensemble de données de données limite l'intégration des données dans plusieurs sources de données et stockée dans des bases de données cohérentes.

Il est nécessaire de se concentrer sur 3 incidents: la combinaison du mode, de la fourniture de données, de la détection et de la manipulation des conflits de valeurs de données.


Parce que des données de nombreux ensembles de données différentsONG Way of Naming, une entité équivalente a souvent des noms différents. Convient à différentes données de nombreuses entités est un problème majeur pour traiter l'intégration des données. La redondance des données

peut être extraite des incohérences des propriétés de données, peut utiliser des tranchées de Pieron pour mesurer les propriétés numériques et peut utiliser des contrôles de carte pour détecter les associations entre deux attributs pour des données discrètes.


Le problème des valeurs de données conflictuelles a principalement exposé et l'entité unifiée de différentes sources a différentes valeurs de données. Le processus de modification des données principales est lisse, synthétisée, structure généralisée de données, de normalisation et d'attributs.
Les zones de données comprennent principalement l'ensemble des parties de données, des règles principales, de la compression de données, des chiffres et des classes conceptuelles.

L'état de l'ensemble de données peut être obtenu en utilisant une technologie symétrique de données, de sorte que l'ensemble de données est toujours proche de l'intégrité des données d'origine.

DéclarationLes cascades sur les données définies après le protocole, peuvent toujours obtenir les résultats analytiques de la même manière que l'ensemble de données d'origine.

Trois. Technique de gestion et de stockage de données importantes


L'objectif principal de la gestion et du stockage de données importantes stockent des données collectées dans des données stockées. Configurez la base de données correspondante et gérez et appelez et appelez.


À l'ère des données importantes, les données originales obtenues à partir de plusieurs canaux manquent souvent de cohérence, de structure de données mixte et de données en développant des performances du système indépendant de réduire, voire augmenté du matériel. La configuration est également difficile à suivre la vitesse de la croissance des données. Cela conduit à des techniques de traitement et de stockage traditionnelles pour perdre de la faisabilité.


La technologie de gestion et de stockage de données importantes axée sur une technologie et une transformation structurées structurées avec une structure structurée, complexe, la résolution du stockage de données volumineux, peut être affichée, peut être traitée, des clés de couple de fiabilitéComme une transmission efficace.


Spécifiquement, il est nécessaire de résoudre les problèmes suivants: stocker et gérer des fichiers volumineux, stocker, indexer et gérer de petits fichiers, grands fichiers volumineux et enregistrer le stockage, la fiabilité du système, l'évolutivité du système.


Face à de grandes données Web, afin de respecter une grande gestion de données et une gestion de données, Google a mis au point une série de grandes technologies de données et d'outils pour une plus grande interne interne. Les applications de données et les technologies sont révélées progressivement dans le papier. Une série de techniques de traitement de données importantes est donc exprimée en GFS, MapReduce, bigtable sont largement comprises et appliquées, et créé également une série de grandes séries représentées par Hadoop. Données open source. Dès la division de la fonction, ces outils peuvent être divisés en systèmes de fichiers distribués, systèmes de base de données NOSQL et systèmes d'entrepôt de données. Ces trois types de systèmes sont utilisés pour stocker et gérer des données, une structure et une structure non structurées, comme illustré à la figure 1.


Système de stockage et de gestion de données typiques et de sa classification




quatre. Grand traitement de données

Il existe de nombreux types de données importants et le mode de traitement primaire peut être divisé en mode de traitement du débit et en mode masse. Le lot est stocké en premier, tandis que le traitement des flux est traité directement.
1. Mode de masse

Le modèle de programmation MapReduce de Google a été proposé en 2004 en tant que mode de lot le plus représentatif.


Le premier modèle MapReduce a bloqué la source de données d'origine de l'utilisateur, puis remise à différentes tâches de carte.


Carte de l'analyse / analyse de la valeur de la carte Pour la collecte de l'entrée, puis exécutez la fonction de carte déterminée par l'utilisateur pour obtenir des résultats de résultats intermédiaires et enregistrés sur le disque dur local.


Le droit de réduction est trié par des valeurs essentielles du disque dur et des données avec la même valeur de clé maintenue ensemble. Enfin, la fonction diminue par l'utilisateurAction sécurisée sur les résultats de ces lignes et exporter le résultat final.


Les idées de conception de base de Mapreduce ont deux points:

Séparant le problème, la division des données sera traitée dans plusieurs modules pour surmonter la carte de multiples éditions, respectivement. Poussez les données calculées au lieu de pousser les données dans le calcul, donc efficace en évitant un grand nombre de coûts de communication créés lors de la transmission de données.


2. Mode de traitement de flux
Le concept de base du mode de traitement de flux est que la valeur des données diminuera au fil du temps. Par conséquent, analysez les dernières données le plus rapidement possible et produisez les résultats de tous les objectifs principaux de tous les modes de traitement de flux.

Le grand script d'application de données doit être utilisé dans le régime de traitement de flux principal avec des statistiques en temps réel, des réseaux de capteurs et des transactions à haute fréquence en finance, etc.

Mode de traitement de traitement des données sous la forme de flux de données des flux de données dans le flux de données continu. ManutentionEt retourner le résultat souhaité pour être géré immédiatement lorsque de nouvelles données arrivent.


Le traitement des données en temps réel est un travail très difficile. Le flux de données lui-même a des caractéristiques entrantes et rapides continues, elle ne stocke généralement pas de manière permanente toutes les données. Dans le même temps, comme l'environnement de données change continuellement, le système est difficile à saisir avec précision les données complètes.

En raison des exigences du temps de réponse, le processus de traitement de flux est fondamentalement complété dans la mémoire et les méthodes de traitement dépend davantage de concevoir le profil intelligent de la structure de données du lac en mémoire. La capacité de la mémoire est un grand goulot d'étranglement limite le mode de traitement de flux.
ans. Une analyse importante d'analyse et de technologie d'exploitation minière

Le noyau du traitement de données important est une analyse de données importante et ne peut être analysé que. Informations intelligentes, intensives et précieuses.


De plus en plus d'applications liées à des données importantes, aux attributs, y compris le nombreNG, la vitesse, la diversité, etc la complexité augmente, l'analyse des méthodes de données importantes est donc particulièrement importante dans le champ de données important, il peut être dit de déterminer si la dernière nouvelle ait un élément de décision précieux.

Modes d'analyse générales de données En exploitant des données principalement classées, analyse de régression, clustering, règles de liaison, etc excavées des autres coins les uns des autres, respectivement.

1. Classification

La classification consiste à trouver des caractéristiques communes d'un ensemble d'objets de données dans la base de données et de les diviser en différentes classes en mode classification.

L'objectif est de cartographier des éléments de données dans la base de données à une catégorie donnée via le modèle de classification. Il peut être appliqué à la classification des clients, à l'analyse de la nature des clients et des fonctionnalités, l'analyse de la satisfaction de la clientèle, la prévision des tendances d'achat des clients, V.V.
2. Analyse de retour

La méthode d'analyse de la régression reflète les caractéristiques des valeurs d'attribut dans la base de données des transactions.

Cette méthode peut créer une fonction de mappage de données dans la valeur de variable prévisible, la détection variable ou la dépendance entre les principaux problèmes de recherche, y compris la direction des caractéristiques de la pièce des chaînes de données, des séquences de données entre prédictions et données connexes.
Il peut être appliqué à différents aspects du marketing, tels que les clients à la recherche, à la maintenance et à la prévention des pertes de clients, l'analyse de la vie de produit, les tendances des ventes de projets et les promotions sont ciblées.

3. Cluster


Cluster est de diviser un ensemble de données en différents types et différences.

L'objectif est de créer une similitude entre le même type de données que possible, la similitude entre les données de types différents aussi petits que possible. Il peut être appliqué à la classification de nClient, analyse des clients, prévision de la tendance des clients, des segments de marché, V.V.
4. Règles de montage

Les règles de l'association sont des règles décrivant les relations qui existent entre les éléments de données dans la base de données.

, c'est-à-dire en fonction de l'apparition de certains éléments, d'autres éléments peuvent également se produire dans la même transaction, ce qui signifie que l'association ou le lien entre les données.

Dans la gestion de la relation client, grâce à une excavation d'une grande quantité de données dans des bases de données des clients clients, vous pouvez trouver des relations intéressantes à partir d'un grand nombre d'enregistrements afin de déterminer les principaux facteurs affectant les effets marketing. Fournissez des installations de référence pour le positionnement des produits, la valorisation, la recherche de clients, la segmentation et le stockage, le marketing et le marketing, l'évaluation des risques marketing et la prévision de la fraude.



Sous la grosse âge de données, de bonnes donnéesSpray and Analyst va analyser ces gros résumés et analyses de données. Si le résultat est dense, il y a très peu de personnes à comprendre, nous devons donc traiter des données.


Les diagrammes ou même des diagrammes dynamiques peuvent être plus intuitifs pour les utilisateurs, réduisant ainsi la lecture et la pensée des utilisateurs pour prendre de bonnes décisions. La figure 2 peut clairement afficher la relation entre les caractères.




Vitrine "Cube Cube"

La technologie intuitive est l'un des meilleurs résultats, des images graphiques claires affichent le résultat final dans une réflexion visuelle.


La visualisation des données consiste à afficher des données selon différentes expressions visuelles de différents systèmes, y compris différentes propriétés et variables de l'unité d'information correspondante.
La visualisation technique des données fait principalement référence aux méthodes techniques des méthodes technologiques et ces méthodes techniques sont visualisées par expression, modélisation et hStéréo, Surface, Attribut, Animation, Animation

L'outil de visualisation des données combine généralement des données pour fournir aux utilisateurs des informations permettant d'explorer les informations de liaison entre données avec différentes expositions.


Avec l'introduction de données importantes, les produits Visual de données ne sont plus satisfaits de l'utilisation d'outils traditionnels de visualisation de données à dessiner, de résumer et d'afficher simplement des données dans l'entrepôt de données.

Les données visuelles de données doivent répondre aux grands besoins de données d'Internet et doivent collecter, filtrer, analyser et résumer rapidement, afficher les informations nécessaires à la décision des personnes et mettre en œuvre des données en temps réel en fonction de nouvelles données. Rafraîchir. Par conséquent, à l'ère des données importantes, les outils de visualisation des données doivent disposer des caractéristiques suivantes:

1.


Les données visuelles doivent adapter le nombre dans la quantité de données de gros besoins en croissance de données, vous devezCliquez sur pour collecter des informations d'analyse et de mise à jour des données.


2. Activités

Des outils de données visuels qui répondent à un développement rapide, faciles à utiliser des fonctionnalités, peuvent répondre aux caractéristiques multiples des informations sur l'ère Internet.
3. Montrez mieux

L'outil de visualisation des données nécessite une affichage plus riche pour répondre pleinement aux exigences multidimensionnelles de l'affichage.

4. Une variété de modes de support d'intégration de données


Source de données illimitée dans la base de données, mais les données de visualisation des données prendront en charge les données de collaboration locales, l'entrepôt de données, le texte. Méthodes, et peut être affichée sur Internet.

La technologie de données visuelle est un champ émergent avec de nombreux nouveaux développements.


Les données d'accès aux entreprises visuelles sont principalement obtenues par programmation et ne pas programmer deux types d'outils.

Les principaux outils de programmation incluent trois types: le côneG Outils Les données visuelles du point de vue de l'art, l'outil typique plutôt que le traitement.js, est la langue de programmation fournie par l'artiste.

Les outils de visualisation des données créés à partir de coins statistiques et de traitement des données, la langue r est un outil normal, qui peut analyser des données et gérer des graphiques.

Les outils entre les deux doivent s'occuper du traitement des données, mais aussi des performances de soins, D3.js est une bonne option, comme D3.js, outils de visualisation que ces données javascript sont plus appropriées. Pour les données d'affichage interactives sur Internet.

Sujets

Catégories