Skip to main content

1.2 Données visuelles

Les données collectées, stockées, analysées et son objectif ultime sont de montrer à l'utilisateur pour atteindre l'objectif décisionnel.

Comment affichez-vous des données efficacement pour les utilisateurs? Visualisez les données pour utiliser une signification raisonnable de données d'expression de nettoyage graphique efficaces.

Cette section a abordé une certaine visualisation de données de base à partir de données à sens unique sur plusieurs dimensions, y compris des graphiques, des points de diffusion, une technologie à base de pixels, des technologies d'icône, des techniques de projection géométrique et des images et des graphiques hiérarchiques sont basés sur Techniques visuelles pour discuter des objets d'affichage visuels et des relations de données complexes. (La plupart des connaissances tirées du livre "Data Mining" et des camarades de classe intéressés peuvent lire directement ce livre)


1.2.1 Description visuelle des statistiques de base [D'abord, nous avons d'abord étudié des graphiques MècheDescriptions de statistiques de base communes, y compris des diagrammes numériques, des diagrammes numériques numériques, des graphiques et des cellules dispersées. Ces modèles aident à visualiser des données utiles pour le traitement des données. Les trois premiers graphiques montrent que la distribution du dollar (c.-à-d. Les données d'un attribut) et l'intrigue distribuée affiche la distribution binaire (c'est-à-dire deux attributs).

Le diagramme de localisateur est une méthode simple et efficace pour observer une distribution de données à une seule chiffre. Premièrement, il affiche toutes les données d'attribut données (permettant aux utilisateurs d'évaluer toute la situation et l'apparence inhabituelle); Deuxièmement, il dessine le score.




Nombre de positions - Numéro de population ou carte QQ à une autre retirera une distribution variable. C'est un puissant outil visuel qui permet aux utilisateurs d'observer s'ils sont distribués à une autre dérive.

La figure ci-dessous montre la population de l'unité - Nombre de population de population - population de prix unitaires des marchandises vendues en deux parties différentes pendant une période de tempsDonné des géants. Chaque point correspond au même numéro de pose de chaque ensemble de données et de l'unité de vente du nombre de packages 1 et 2 unités.



Selon la figure ci-dessus, la division Prix unitaire 2 vendu par le 1 ministère 1 au premier trimestre est faible. En d'autres termes, l'unité 1 s'est vendue inférieure à 25% ou égale à 60 $, tandis que 50% inférieure ou égale à 78 dollars dans la zone 2, tandis que 50% des biens vendus dans des ensembles de 2 inférieurs ou égaux à 85 $.

Normalement, nous notons que la distribution du ministère est dérivée par rapport au département 2, car le prix unitaire du ministère 1 a tendance à être faible dans la faculté 2.

Modèle ou graphique de fréquence, il y a un longue durée. Pas fini.

Bien que le graphique soit largement utilisé, il peut ne pas être des bits, des cartes Q-Q et le côté de la boîte sont valides.

L'intrigue distribuée consiste à déterminer s'il existe l'un des modes graphiques les plus efficaces de deux variables qui examinent le contact, le mode ou la tendance ou non.

Il est utilisé pour observer des points impairs et des points désactivés, Ou la capacité d'enquêter sur des liens connexes. Comme indiqué ci-dessous, pour les deux attributs X, Y, si le mode de l'échelle d'inclinaison de la partie inférieure gauche en haut à droite, la valeur de x est augmentée avec la valeur de y, des poteaux implicitement, si le mode de la balance est Depuis le haut à gauche à droite sous l'inclinaison, cela signifie que X est augmenté car la valeur Y est réduite et suggère une corrélation négative. Vous pouvez dessiner une ligne appropriée optimale, la corrélation entre variables peut être étudiée.


L'intrigue distribuée peut être utilisée pour explorer la corrélation entre les attributs














Trois situations, où il n'y a pas de corrélations entre les deux attributs de chaque base de données.

Affiche des descriptions de données de base des données (telles que le nombre de populations, graphiques et parcours distribués) fournit des informations précieuses dans la situation globale des données, contribuant à déterminer le point à interférer et à dissiper, de nettoyage des donnéesU particulièrement utile.


1.2.2 Technologie visuelle à base de pixels


est une seule donnée de transformation, pour les ensembles de données M-dimensions, la technologie à base de pixels sur L'écran crée une fenêtre M, une sur chaque dimension. La taille enregistrée M est mappée sur M pixels sur ces fenêtres. La couleur de la couleur de la réponse de pixels correspond à la valeur. Ceci s'appelle une technique visuelle basée sur le pixel de la couleur de la couleur.
Exemple: Tableau d'information client à 4 voies: In_come (revenu), Credit_Limit (ligne de crédit), transaction_volume (transaction) et âge. Pouvons-nous analyser la corrélation entre revenus et autres attributs avec une technologie intuitive?

Nous pouvons classer tous les clients par revenu et utiliser cette commande, organiser des données client dans quatre fenêtres intuitives, comme indiqué ci-dessous. Plus la valeur est petite, moins la couleur.

Utilisation de la visualisation sur la base de pixels, nous pouvons facilement recevoirobtenu par les observations suivantes: Credit_Limit a augmenté avec le revenu; le revenu est plus susceptible de magasiner au centre; Il n'y a pas de corrélations significatives entre le revenu et l'âge;


Autres formes, telles que des courbes de remplissage d'espace, des techniques d'approvisionnement rondes, V.V. (Je peux faire plus que l'apprentissage approfondi)





, la flèche: a) représentent une donnée enregistrer dans le cercle; b) Organisez des pixels dans le cercle.

1.2.3 Technologie visuelle pour la géométrie

Il existe un inconvénient pour la visualisation basée sur des pixels, c'est-à-dire la distribution de leurs données pour nous aider à comprendre la distribution de données multidimensionnelles contribue à la grande, pas très facile à comprendre. Par exemple, ils ne montrent pas s'il existe une zone dense dans l'espace multidimensionnel.
Les techniques de projection géométrique aident les utilisateurs à explorer et à mieux comprendre les projections intéressantes des cubes. Le principal défi du projetH L'apprentissage tente de résoudre comment visualiser un espace de grande taille sur un écran bidimensionnel.
Point de dispersion: Utilisez les coordonnées cartésiennes pour afficher des points de données bidirectionnels. Différentes couleurs ou formes montrent différents points de données pour augmenter la troisième dimension. Par exemple, deux attributs d'espace x, Y, tandis que la troisième taille est affichée sous différentes formes. À travers cette imagerie, nous pouvons voir le type de "+" x "tend à apparaître ensemble.


Les ensembles de données bidimensionnels sont affichés par des points distribués, des sources de données: www .cs.sfu.ca / jpei / public-tions /Rareevent-geoinforma06.pdf
TRACE partielle Utilisez trois axes Coordonnées Coordonnées du système de coordonnées cartésiennes et, si elle est également utilisée, elle est affichée à 4 dimensions. Points de données. Comme indiqué dans l'image ci-dessous:

Set de données 3D dispersé visuellement


Matrix dispersée: Pour la taille supérieure à 4 ensembles de données, Traque éparpillée habituellement kHanches efficaces. La carte dispersée Matrix est l'expansion d'une parcelle dispersée, fournissant toutes les dimensions de toutes les autres tailles.

Comme indiqué ci-dessous est une collection de données de fleurs. Un total de 450 échantillons provient de trois types de fleurs. Un total de 5 dimensions: longueur et largeur, largeur de pétale et largeur et graines.


Imaginez une matrice de carte dispersée

Coordonnées parallèles: lorsque la taille augmente, la matrice de modèle dispersée change de fruit d'effet. Les coordonnées parallèles peuvent gérer des tailles supérieures de dessin égal, une arbre parallèle, chaque dimension. Données d'écriture spécifiées par une ligne de pliage, intersectant chaque arbre, comme indiqué dans l'image ci-dessous:



Utilisation de la visualisation parallèle, source: http://support.sas .com / Documentation / CDL / EN / GRSTATPROC / 61948 / THML / Par défaut / Images / GSGSCMAT.GIF


1.2.4 Sur la base de l'icône de visualisation




Les ensembles de données multidimensionnels sont indiquésAvec une petite quantité d'icône basée sur des images visuelles basées sur l'icône. Nous discutons de deux technologies emblématiques, des visages de Tchernov et des peintures de personnages. Le visage de Tchernov est une personne introduite statistique. Tchernov introduit en 1973. Il affiche des données maximales à 18 voies pour les visages animés, aidant à révéler la tendance dans les données.

La taille peut être mappée sur la caractéristique suivante: rire, distance oculaire, longueur nasale, taille des yeux, inclinaison des sourcils, écart oculaire et écart-chef. Chernov Face utilise la capacité de pensée de chacun, identifie une différence de sourire entre les caractéristiques du visage et creuser instantanément dans de nombreuses caractéristiques du visage.

L'inconvénient est que la valeur de données spécifique n'est pas affichée.


Face Chanesov, chacun représentant un score N-dimensionnel (N & LT; = 18)
Le visage de Synovic n'a pas été vraiment recommandé est une extension de la technologie originale, et vousLa classe d'intérêt de l'intérêt est d'apprendre profondément.

La surface du caractère est visualisée pour mapper des données multidimensionnelles sur des lignes de caractères en 5 parties, chaque ligne a été utilisée et du corps. Deux dimensions sont mappées sur l'axe d'affichage (axe X et Y), tandis que le reste est reflété sur les membres et les longueurs.

La figure suivante montre que la figure suivante montre les données de l'enquête sur la population, dans lesquelles l'âge et les revenus sont mappés dans les lignes de tâches avec des barres d'argent dans le bouclier d'arbre, tandis que d'autres tailles sont un rayonnement lumineux sur les lignes de tâches. Si l'élément de données est relativement dense en deux tailles d'affichage, les résultats visualisent le mode de texture, reflétant la tendance des données.



Données démographiques indiquées par la ligne de caractères: Professeur G.Grinstein, professeur Grinstein, Université Massachusetts (Ferfr) Science Calculez


1.5 Décentralisation visuelle d'affichage

Les techniques visuelles décrites jusqu'à présent sont liées à la même visualisation de nombreux clics. Cependant, pour vAvec de grands ensembles de données latitude, il est difficile de visualiser toutes les tailles et les techniques de visualisation diviser toutes les tailles en sous-ensemble (c'est-à-dire l'espace), imaginez visuellement.

"Le monde dans le monde" est également appelé n-vision est une méthode visuelle représentative.


Supposons que nous voulions visualiser le jeu de données à 6 dimensions, où nous souhaitons observer comment redimensionner F, nous pouvons observer comment changer la taille f. Par exemple, C3, ... C5, peut ensuite utiliser des cartes tridimensionnelles (appelées au monde) pour visualiser toutes les tailles, comme indiqué sur la photo, l'origine du monde situé dans le monde (C3, C4, C5); Une figure tridimensionnelle du monde est utilisée comme x3, X4, X5.


Les utilisateurs peuvent changer la position d'origine du monde dans le monde, puis observer les résultats du monde intérieur. De plus, les utilisateurs peuvent redimensionner utilisés dans le monde et le monde. Avec plus de dimensions, vous pouvez utiliser plusieurs classesPlus de monde, c'est pourquoi la méthode s'appelle "monde dans le monde".


"Le monde du monde" est également appelé source de données N-Vision: http://graphics.cs.columbia.edu/ Un autre exemple sur les projets / Automatique / 1 .dipstick.5.gif Cartes d'arborescence, affichez des données hiérarchiques dans une collection de rectangles imbriqués.

Exemple: le diagramme d'arbres visuels visualise les rapports de Google News. Toutes les rapports d'actualités ont organisé 7 types, chaque catégorie est affichée dans une couleur. Dans chaque catégorie (c.-à-d. Les nouvelles déclarées continue d'être divisées en filiales plus petites dans chaque catégorie.



Actualités: Utilisations appartiennent à la visualisation du titre de rapport de Google News. Source: www.cs.umd.edu/group, Spring2005 / CMSC838S / VIZ4ALL / SS / NEWSMAP.PNG


1.2.6 Objets et relations complexes


Les techniques intuitives comprennent des techniques intuitives. images pour les données non numériques, no hJ'aime le texte et les réseaux sociaux visuels, sont disponibles et peuvent être remarqués.

De nombreuses technologies de données de classe ne sont pas des chiffres, tels que de nombreux sites Web, tels que des images, des blogs et des critiques de produits plus des étiquettes.
Tag Cloud est une technique intuitive pour les statistiques sur l'étiquette créées par l'utilisateur. Dans la carte de nuage, la carte est souvent répertoriée dans l'ordre alphabétique ou l'utilisateur spécifié. Comme indiqué ci-dessous, une carte cloud de carte populaire est utilisée pour le site.


Utilisez la carte de cloud pour visualiser des cartes communes utilisées sur le site. Source: www.flickr.com/photos/tags/2010 Snapshot 23 janvier Habituellement, l'utilisation d'étiquettes de nuage est deux, l'une est pour un seul terme, nous pouvons utiliser la taille de l'étiquette pour indiquer différentes étiquettes d'utilisateurs utilisés. Pour ce terme et l'autre est sur plusieurs termes, lorsque nous envisageons des statistiques de cartes, nous pouvons utiliserUtilisez la taille de l'étiquette pour les temps d'index, c'est-à-dire le niveau commun de l'étiquette. Outre les données complexes, la relation complexe entre les éléments de données affiche également le défi. Exemple: La figure suivante utilise la carte qui affecte la maladie pour visualiser la corrélation entre les maladies. Le bouton de l'image est la maladie et la taille de chaque nœud proportionnelle au niveau de maladie de la maladie correspondante. Si la maladie correspondante a une corrélation forte, les deux boutons sont connectés à un côté. La largeur du bord est proportionnelle au niveau de corrélation des deux maladies correspondantes. Données de naines axées sur 20 ans, la maladie affecte , les données de visualisation fournissent un outil efficace. Nous avons introduit des méthodes courantes et leurs idées de base. Il existe de nombreux outils et méthodes prêts. En outre, la visualisation peut être utilisée dans certains aspects de l'exploitation minière des données. En plus de visiter des données, la visualisation a également TIl est utilisé pour exprimer des processus d'excavation, du mode de méthodes minières et des utilisateurs avec des interactions de données.L'exploitation visuelle est une direction de développement importante. Cet article est copié partagé, s'il est pertinent pour travailler, le droit d'auteur, etc veuillez nous contacter pour supprimer la première fois (Micro Signal: LOVEDATA0520)

Sujets