Bonjour tout le monde, je suis une petite personne.
Aujourd'hui, il est plus important, que ce soit dans le modèle algorithmique ou l'analyse des données: normaliser les données et la normalisation.
Avant de commencer, veuillez oublier tous les blogs pertinents que j'ai vus en ligne. Ne dites pas tout cela, vous pouvez dire ce concept, ce concept est très tard. Premièrement, c'est une question de traduction chinoise et anglaise. La seconde est l'unité de la compréhension conceptuelle et a provoqué une déclaration en ligne. Différent. Après avoir lu, différents écarts sont différents.
Bien sûr, si vous lisez l'article, il y a un problème avec un problème de bienvenue pour laisser un message.
Mais je pense que vous n'avez peut-être pas l'occasion de critiquer
d'abord, concept
Normalisez les données et normaliser en fonction de la manière de caractériser les données. La taille consiste à convertir différentes spécifications de données aux mêmes spécifications ou pHDifférentes données Amniot pour une exigence de distribution spécifique, appelée "Quariling".
Au cours du processus de formation modèle, les caractéristiques de données après la quantité accélérée de la solution du modèle, en particulier pour le modèle, nécessitent un calcul de gradient et une matrice (par exemple, passer par la régression logique). La pente diminue pour résoudre le manque de fonctionnalité).
De plus, la distance est nécessaire dans les algorithmes K voisins, la clustering et l'utilisation de la quantité d'excès peut améliorer la précision du modèle, éviter une valeur inhabituelle. Pour les calculs globaux, cela est derrière les détails.
La quantité de données peut être linéaire ou non linéaire. Aucune dimension n'est pas plus courante, telle que le commutateur pour cent, la conversion d'énergie des fonctionnalités d'application, V.V.
La nature de l'accent est de tous les enregistrements moins une valeur fixe, c'est-à-dire que les échantillons de données sont traduits dans un emplacement. Nature deLe zoom est fixé à une certaine plage en divisant une valeur fixe.
Suivant,
Données normalisées
IMPORTANT !! Données de traduction anglais standardisées: normalisation et taux maximum
La standardisation des données est de zoomer lorsque les données X doivent supporter le centre minimum. Les données finales déploient l'unité minimale et convergent entre [0, 1].
La formule standardisée est la suivante:
Ici, pour noter que la normalisation est la signification de la normalisation, pas la régulière et l'orthogine de la traduction que vous devez être: régulière, mais formelle est pas un moyen de traitement de données.
Déploiement de procédés
Selon le calendrier de fonctionnalités communes a été déployé à Sklearn, qui peut être appelé directement, généralement dans des modules pré-traités basés sur Sklearn. La normalisation de la normalisation peut appeler la fonction MINMAXSCALER, bien sûr, vous pouvez également vous réaliser, justeLa mémoire est répertoriée ci-dessus. MinmaxScaler a un paramètre important: Feature_Range, par défaut [0, 1] signifie converger des données entre [0, 1].
MINMAXCALER peut être placé manuellement, mais le cas général est sélectionné par défaut
le code est déployé et le code standard standard obtenu:Il peut être Vu que la plage de convergence de l'installation manuelle est en fait basée sur [0,1] et la traduction et le zoom correspondants sont effectuées.
Par exemple, [1.3] au-dessus du premier [1, 3] est un zoom 2 sur la base de [0, 1] pour devenir [0, 2] et traduire 1 à [1, 3].
Donc, si le résultat est renvoyé à un ensemble de valeurs [A, B], la formule standardisée devient:respectivement, dans la fonction MinmaxScaler, seule la valeur des caractéristiques_Range requises dans l'appel est (A, B).
Normaliser les données
Normalisée Données de traduction anglaise: normalisation, également appelée standardisation Z.
Normaliser les moyens de données après que les données x estSe concentrer en moyenne, alors selon l'écart type σ, les données suivront la distribution normale normale de la moyenne 0, la variance est de 1, appelée données normalisées.
formule pour normaliser les données comme suit:Il faut être au courant: la normalisation ne modifie pas la distribution de données. La raison pour laquelle les données sont normalisées dans la distribution standard normale en raison des données d'origine appropriées pour une distribution normale, mais ce n'est pas une distribution standard normale.
La normalisation et la distribution ordinaires seront liées car la plupart des données sont une distribution normale ou une distribution approximative. Par conséquent, après la normalisation des données, il deviendra une distribution standard normale.
La distribution inconnue d'origine ne peut devenir une distribution normale après la normalisation.
La mise en œuvre du code
spécifiquement, le code de normalisation des caractéristiques est le suivant:
De plus, il peut également s'agir d'une fonction inverse_transform. L'inversion des données est normalisée
pour StandardsCaler et MinmaxScaler, Nano sera considérée comme une valeur manquante, continue d'être manquante à fit_transform.
La différence et la connexion entre la normalisation et la normalisation?
Premièrement, il est nécessaire d'être clair et très important: la normalisation et la normalisation ne modifient pas la distribution des données.
Tous sont des nombres linéaires pour les données, ce qui permet de modifier les données en fonction du rapport correspondant et de la traduction, mais ne modifiez pas l'ordre des données brutes.Dans le cas de la normalisation de la normalisation identifiera strictement la plage de modifications de données, la valeur par défaut est comprise entre [0, 1].
et les données après la normalisation de la normalisation n'ont pas de temps strict. Après des modifications, les données ne sont pas une plage, mais les données moyennes sont 0, l'écart type est de 1
, le débit de normalisation minimise uniquement le taux de ratioLa norme U et l'ensemble de données global sont liées à l'extrême. Par conséquent, pour des échantillons de données extraordinaires, il n'est pas une décision intelligente avec la normalisation
, par exemple, certains échantillons sont compris entre 0 et 10 et ajouter soudain une valeur inhabituelle de 99. Après la normalisation, la valeur de l'échantillon exact devient très petite. À ce stade, la normalisation normalisée sera meilleure que normalisée.
Quel est le traitement des données?
ne peut être dit que.
Dans la plupart des algorithmes d'apprentissage de la machine, StandardsCaler est choisi pour capturer des fonctionnalités car MinMaxCaler est sensible aux valeurs d'exception. Des algorithmes tels que le regroupement, la régression logique, le support vectoriel, la PCA.
Toutefois, si la distance de calcul, gradient, v.v. Non liée au zoom et la normalisation peut être utilisée pour se développer.
Non données pour tous les modèles nécessite une standardisation et une normalisation.
Semblable au modèle d'arbre décisif, peuLa quantité d'informations augmente lors de la division du bouton et de la vitesse de calcul du modèle n'est pas significativement améliorée après la normalisation "peut avoir une faible amélioration"
des modèles de probabilité similaires, ne se soucie pas de la valeur de la variable, uniquement les conditions entre la distribution et les variables de variables.
En résumé, lorsqu'il n'y a pas de nombre de fonctionnalités, sans spécifications difficiles, la division d'étendue, le calcul de la distance, etc vous pouvez utiliser la normalisation en premier, l'effet n'est pas bon, réessayez.