Skip to main content

Introduction à l'analyse des données, d'abord à comprendre les données, puis à analyser des données, telles que l'analyse statistique descriptive et l'analyse de corrélation.





Les variables et les données sont souvent utilisées dans l'analyse des données, avec des variables pour décrire les caractéristiques des choses et les données sont la valeur spécifique de La variable et la valeur de la variable sont également appelées valeur d'observation.

1. Variable


Variables utilisées pour décrire la caractéristique d'un membre global. Par exemple, le sexe, l'âge, la hauteur, le revenu, le V.V.


Les variables peuvent être divisées en:

Calcul variable: Pour classer, généralement le texte, par exemple, Sexe, couleur

ordre de variable: utilisé pour exprimer le niveau ou l'ordre variable , tels que le niveau, la position, les cotes, etc la valeur de la variable peut être agencée à un niveau élevé ou à une taille élevée, mais aucune distance approfondie entre chaque valeur variable, cela ne peut pas être déterminé à quel pointApprenez entre les deux variables arrangées
Variables de qualité: il s'agit d'une variable de quantité, qui peut être relativement petite. Est divisé en deux types: variables distinctes et variables continues



Les données sont une valeur spécifique de la variable.

Par type variable, les données peuvent être divisées en: données séquentielles, données séquentielles et numériques de données
en fonction de l'analyse des données, des données possibles sont divisées en groupes de test (traitement) et de référence . Groupe (contrôle)

Par type de données, les données peuvent être divisées en: données de texte, données numériques et données de temps de données


3. Manquant




. est terminé, certaines valeurs observées peuvent être manquantes, pour les valeurs manquantes, le mode de traitement habituel est le suivant: Supprimer les flux de données, remplir la valeur manquante et la valeur d'interpolation du manque de valeur.
4. Code rotatif

Dans l'analyse des données, des variables continues sont souvent nécessaires pour être une variableSuivant. Par exemple, les scores des élèves sont divisés en excellents, bons, qualifiés et différents, également appelés discret.

Lorsque le dispositif utilisé par les données d'observation peut affecter l'analyse des données, il est nécessaire de normaliser les méthodes de normalisation et de normalisation générales: normalisation maximale minimale du poivron, conversion standard, etc.

II. Analyse statistique descriptive


Description Les statistiques sont divisées en: Tendances centralisées, niveaux distincts (tendances expectoratoires) et distribution

1. La description de la tendance de la concentration

signifie que la moyenne arithmétique d'un ensemble de données est décrite, la description moyenne d'un ensemble de données concentré. La tendance est l'indicateur le plus petit et le plus fiable, mais la valeur moyenne est facilement affectée par des valeurs extrêmes (valeurs minimales ou extrêmes).

Médias: Signification Lorsqu'un jeu de données est trié dans l'ordre, le nombre de postes intermédiaires n'est pas affecté par les prix.Traitement extrême, pour des arrangements variables, la moyenne est l'indicateur le plus approprié de la tendance à la concentration. Numéro
Numéro: fait référence à la valeur d'observation du nombre de fois dans un ensemble de données, non affectée par des valeurs extrêmes, couramment utilisée pour décrire la tendance à la concentration des données qualitatives


. Statistiques Description de la dispersion

Valeur maximale et minimum: La valeur d'observation maximale et la valeur d'observation minimale dans un ensemble de données très médiocre
: également appelée gamme complète, est un ensemble de données de différence Entre l'observation maximale et les valeurs d'observation minimale, rappelez-vous, en général, la différence extrêmement grande, la discrétion pire, la valeur de sa valeur est très susceptible aux valeurs extrêmes

Variance et écart type: est une donnée discrète définie le Plus gros, le plus couramment utilisé, la valeur supérieure, plus la valeur est grande, plus le manque de données



3. La description de l'échantillon de distribution


Général:La distribution de la distribution des données est utilisée pour évaluer les niveaux de symétrie. Lorsque déviation = 0, la distribution est symétrique; quand biais & gt; 0, la distribution est positive; Quand biais & lt; 0 La distribution est une polarisation négative.


































.


] . Les indicateurs différentiels utilisés pour appuyer sur la distribution de la forme de prix d'un ensemble de données, lorsque la hauteur = 0, la distribution et la distribution normales sont fondamentalement lorsque le niveau supérieur et le GT; 0, répartition élevée et faible; Quand la hauteur & lt; 0, large distribution. 4. Analyse de fréquence Analyse de la distribution SMS (également appelée analyse de fréquence) principalement par des fréquences, des graphiques à barres, une carte des expressions, une valeur de pourcentage, etc. Décrire les caractéristiques de la distribution des données. Lors de l'analyse de la répartition des fréquences, le pourcentage occupé par chaque classification est généralement calculé.Selon la fréquence de données qualitative (c.-à-d. La classification) et la table de distribution de fréquence calculée et la table de distribution de fréquence calculée, et enfin sous la table de distribution de fréquence pour cartographier la carte de distribution de fréquence. 5. Analysez la tendance à augmenter le temps Dans un cas particulier, lorsque l'axe X est la date de la date, l'axe Y est des statistiques lorsque la quantité (telle) En tant que moyen, total), vous pouvez dessiner des statistiques et augmenter de temps.polentoscopie, à partir de l'image, vous pouvez voir que les statistiques sont augmentées de temps (inchangées, augmentes ou diminutions) et périodiquement. Par exemple: l'axe X de la figure ci-dessous est la date, les statistiques de l'axe Y sont le nombre total et deux lignes pliantes sont le nombre de personnes à Hubei et le nombre de nouveaux cas de diagnostic Dans le lac Nord: III. Analyse de la corrélation L'analyse de corrélation est de savoir s'il existe des relations dépendantes entre la recherche sur les transactions et les dépendances sont effectuées dans la direction de la corrélation et d'analysercorrélation. relatives au coefficient de corrélation R, R |& Lt;= 1, r = 0 signifie sans rapport, généralement, 0 & lt;R |& Lt;1 indique que la variable est présente avec différents niveaux liés à linéaire, selon les règles convenues: |R |& Lt;= 0,3: comme point lié à un faible linéaire linéaire linéaire ou non linéaire 0.3 & lt;R |& Lt;= 0,5: corrélation linéaire faible, il est considéré comme une corrélation linéaire, mais la corrélation n'est pas claire 0.5 & lt;R |& Lt;= 0,8: significatif linéaire lié, il existe une corrélation linéaire forte, il existe une corrélation significative |R |& Gt;0,8: très corrélé, considéré comme une corrélation linéaire forte

Sujets

Catégories