Comprendre les connaissances minières de données est une compétence indispensable, après une période de temps pour "Data Mining", et le contenu d'extraction de données utilisée dans le projet, ce qui me faisait une exploitation de données avec une compréhension plus étape par étape , c'est toujours une petite scène.
La route est longue et la route est longue, ici, résume d'abord les données pour excaver les points de connaissance courants et partager (également comme tout le monde "Data Mining", ce partage le plus de connaissances vient de cela) , met ensuite à jour plus tard plus de points de connaissance et de cas de projet. J'espère être avec le monarque!
(Ce partage ne contient que des connaissances de base sur le concept, vise à aider les gros gestionnaires de données à comprendre rapidement les connaissances sur l'exploitation des données et peuvent collaborer avec des algorithmes et des équipes de développement au travail, pour une recherche plus approfondie des statistiques , etc il y a une chance de partager avec vous ~)
La première partie de la connaissance des données (1.1 Données de reconnaissance 1.2 Visualisation des données 1.3 Similoustions et différentiel de données)
Deuxième partie Prétraitement de données
Partie 3 Entrepôt de données Connaissances connexes
Sixième analyse de grappes partielle
Les parties ci-dessus, je partagerai mon contenu d'apprentissage avec tout le monde
La première partie des données de reconnaissance
1.1 Données de sensibilisation
1.1.1 Objet de données
Attribut: c'est un champ de données qui représente une fonctionnalité de l'objet de données. Dans la littérature, les attributs, les dimensions, les caractéristiques et les variables peuvent être utilisés les uns aux autres. La littérature d'apprentissage de la machine est plus préférable d'utiliser le terme "fonctionnalité", tandis que les statistusologues sont plus disposés à utiliser le terme "variable". Les professionnels de l'exploitation des données et des bases de données utilisent des "attributs". Par exemple, un attribut décrivant qu'un objet client peut inclure le client, le nom et l'adresse.
Propriétés: Utilisé pour décrire un ensemble de propriétés d'un objet donné appelé vecteurs d'attributs (ou vecteurs de fonctionnalités). La distribution des données impliquée dans l'attribut (ou la variable) est appelée une "variable unique", et la distribution implique deux attributs "Doubles variables", ainsi que similaire.
1.1.2 Type de propriété
Le type d'attribut: le type d'attribut mérite une collection déterminée par cette propriété. La propriété peut être nominale, binaire, ordre ou numérique.
(1) Attribut nominal
La valeur de l'attribut nominal est des symboles ou des éléments du nom. Chaque valeur représente une catégorie, un codage ou un statut, la propriété nominale est donc considérée comme une classification. Ces valeurs n'ont pas à avoir un sens. Par exemple: Hari_Color (couleur des cheveux) et matrital_status (état matrimonial) sont les propriétés de deux descripteurs. Hari_Color (couleur de cheveux) peut être noir, brun, rouge, rouge, blanc, gris, etc la valeur de la propriété Marital_status peut être célibataire, mariée, divorcée et veuve. Hair_Color et matrital_status sont des propriétés nominales, elles sont incompatibles.
(Attribut nominal est une commande significative et n'est pas quantitative, par conséquent, compte tenu d'un ensemble d'objet, trouve la moyenne (moyenne) ou médiane (médiane) de cette propriété (médiane) sans signification alors, la chose significative est de faire le Valeur de cet attribut, cette valeur est appelée le nombre, est une métrique de tendance centrale, et nous l'introduirons plus tard)
(2) Attributs binaires
L'attribut binaire est une propriété nominale, à seulement deux catégories ou statut: 0 ou 1, où 0 signifie généralement que cet attribut n'apparaît pas et deux représentations. Les propriétés binaires sont également appelées propriétés booléennes, si les deux états correspondent à true et faux.
Les attributs de numéro de séquence ont un ratio de commande ou de rang significatif. Sa valeur est comme petite, moyenne, grande; scores A +, A, A-, B +; Étapes militaires incluent des couleurs, des soldats de première classe, des sergents professionnels, 下 士, 下 等,
la tendance centrale L'attribut de commande peut être utilisé le nombre et la médiane (valeur intermédiaire de la séquence ordonnée) sont représentés, mais il ne peut pas être défini.
(4) Attribut numérique
Les attributs nominaux, binaires et de commande décrits ci-dessus sont qualitatifs. C'est-à-dire qu'ils décrivent les caractéristiques de l'objet sans donner la taille réelle. L'attribut valeur est quantifié, c'est-à-direElle mesure la quantité de mesurée, exprimée avec un entier ou une valeur réelle. La propriété numérique peut être une zone scalaire de zone ou une échelle d'échelle.
(5) Attributs distincts et attributs continus
L'algorithme de classification pour le développement dans l'apprentissage automatique est généralement la propriété est divisée en discrète ou continue. Chaque type peut être traité de différentes manières. Les propriétés discret ont une priorité ou une valeur comptable illimitée, qui peut être représentée par ou sans entier. Tels que Attribut Hari_Color, Fumeur, Medium_Test et Drink_Size ont une valeur limitée, il est donc discret. Si l'attribut n'est pas discret, il est continu. Les attributs continus utilisent généralement des variables de points flottants.
1.1.3 Statistiques de base et description des données
(1) Mesure de la tendance centrale: moyenne, médiane et nombre de
Menu: L'utilisation la plus courante des ensembles de données, la métrique numérique la plus efficace est la moyenne.
Ceci correspond à la moyenne de la fonction globale intégrée (
AVG ()) fournie par le système de base de données.
Parfois, pour chaque valeur peut avoir un poids associé à un poids, le poids réagit le sens, l'importance ou la fréquence de la valeur correspondante qu'ils réagissent, la formule est la suivante:
[
Ceci est appeléCalcul pondéré moyen
ou la moyenne pondérée.
Médias:
Pour les données inclinées (asymétriques), de meilleures métriques du centre de données sont médianes. La médiane est une donnée ordonnée qui vaut la valeur intermédiaire. Il sépare plus de la moitié de la moitié inférieure de la moitié inférieure.
En supposant que les n valeurs pour une propriété donnée x sont triées par incrémentation. Si n est impair, la médiane est la valeur intermédiaire dans la séquence; si n est même, la médiane n'est pas Unique, c'est la valeur la plus intermédiaire et toute valeur entre eux. Dans le cas où X est un attribut numérique, Jiading envisage, le numéro médian est utilisé pour faire la moyenne des deux valeurs les plus intermédiaires. Nombre
: Le nombre est une autre métrique de tendance centrale. L'entier de l'ensemble de données est la valeur la plus fréquente de la collection. Par conséquent, le nombre peut être déterminé sur des propriétés qualitatives et quantitatives. Il se peut que la fréquence la plus élevée correspond à plusieurs valeurs différentes, provoquant plusieurs nombres. A une série de données, deux, trois charges, respectivement, appelée pic unique, doubles pics et trois pics. généralementLes terres, avec deux ou plusieurs ensembles de données sont multi-pics. Dans un autre cas extrême, si chaque valeur de données ne se produit une fois, ce n'est pas un critère.(2) Distribution des métriques: très médiocre, quadrant, variance, variance standard, hors du point de groupe
Prétraitement
: Set Un ensemble de propriétés numériques, la différence maximale est la valeur maximale (max ()) et le minimum (min ()).
Points: En supposant que les données de l'attribut X soient incrémentées de valeur, imaginez que nous pouvons choisir des points de données pour diviser la distribution des données en une taille égale. Comme le montre la figure:
4 points:
3 points de données, ils sont divisés en quatre parties égales telles que chaque partie indique une quart de la distribution des données. Généralement appelé quadritiques.Une variance et une variance standard:
La variance et la variance standard sont des métriques de dispersion de données et indiquent le degré de distribution de la distribution des données. La variance basse standard a menacé que l'observation des données a tendance à être très proche de la moyenne et l'écart-type élevé indique que les données sont diffusées dans un domaine de valeur importante.