Normaliser les données.

1. Points standard

Les scores standard, également appelés points Z, point z ou valeur normalisée), sont des collections uniques dans la collection L'ensemble de résultats de la moyenne moins est divisé en fonction de La différence de normes standard, similaire à la conversion standard de la distribution normale et la fonction de conversion est la suivante:

Z = (x-μ) / σ

xx doit être normalisé , ce qui signifie que σ est l'écart type, σ ≠ 0.

La valeur du processus standard Zpoint Z indique la distance entre la valeur initiale et la moyenne de la collecte, calculée en fonction de l'écart type. Cette valeur a des valeurs positives et négatives, inférieure à la valeur moyenne, la valeur négative et le nombre positif est [-∞, + ∞], les données moyennes sont 0 et la variance est 1.
Deux, extrigèrent ]

a également appelé normalisé divisé, est un numéro unique dans la collection et la valeur minimale de l'ensemble de distance est supprimée la valeur maximale de la collection VOH Valeur minimale et le résultat tombe autour de [0, 1], la fonction de conversion est la suivante:

f (x) = (x -xmin) / (xmax-xmin)

]
Il existe également une mesure de la méthode de mesure moyenne pour référence et le nombre de nombres individuels dans la collection doit supporter la mesure moyenne des collections. C'est un résultat standardisé obtenu. Les données standard tombent dans la plage [-1, 1] et la moyenne est 0, très différente de 1, la fonction de conversion est la suivante:
F (x) = (x) = (x) = (x) = (x) = ) = -σ) / (xmax-xmin)

Fonction de journal standardisé

Convertir la valeur d'origine du convertisseur Elevé le journal de la base de sa valeur de journal, La valeur de conversion n'est pas comprise entre [0, 1], la fonction de conversion est donc la suivante:

F (x) = logarithme de log10x externe de la valeur maximale. / LOG10XMAX

43] Python effectue la normalisation de la normalisation

Utilisez des pandas et NUMPY pour créer 5 matrices aléatoires et stocker une structure LiLes données Pandas sont pratiques pour le traitement ultérieur.

La valeur initiale

a été créée et le nombre, maximum, minimum, l'écart type de la matrice sera compté chacun après le tableau. Le Le logarithme de la valeur maximale est calculé et placé dans la variable globale pour éviter de recalculer lors de l'utilisation d'un appel en arrière et de la durée de calcul peut être réduite pour une grande quantité de données. Après avoir écrit une fonction standardisée, le résultat normalisé est stocké dans une nouvelle colonne. Les résultats sont normalisés comme suit:

Résultats standard

Code source Comme suit:
Importation panda comme PD
02 Entrez un nombre intégré en tant que NP
03

04 Random_Seed = 100

05 NP. Random.seed # # # # Définissez le grain aléatoire pour que chaque nombre aléatoire soit cohérent
06
07 df = pd.dataframe (np.random.randint (1, 100, 5), Colonne = ['valeur']) # Créer 5 numéros

09 v_mean = DF['évaluer']. Moyenne () # 均

10 v_max = df ["valeur"]. Max () # maximum

11 v_min = df ["valeur 'min () # minimum

12 v_std = df [" valeur']. Std () # différence standard

13 v_log_max = np.log10 (v_max) # Logarithme maximum

15 DF ['Z_SCORE'] = DF ["valeur '. Carte (Lambda X: (x - v_mean) / v_std) # z Score standardisé

16 DF ['MIN_MAX'] = DF ['valeur']. Carte (Lambda x: (x - v_min) / (v_max - v_min)) # 极 Différence normalisée, basée sur le minimum

17 df ['Min_max_Mean'] = DF ["valeur"]. Carte (Lambda X: (x - v_mean) / (v_max - v_min)) # 差标准, basé sur la moyenne

18 df ["log_max '] = DF [" valeur "]. Carte (Lambda x: np.log10 (x) / v_log_max) # standardiser la fonction journal

Remarque: toutes les formules de l'article sont utilisées MathType pour éditer
.

Sujets

Si pauvre

Catégories

Outils de données