Dans l'analyse quotidienne des données, en plus du démantèlement de base, des méthodes de comparaison analysées et des méthodes de modélisation sont souvent nécessaires pour prédire ou classer, introduiront le processus de tabouret. Modèle de base suppléant et méthode de traitement général.
Premièrement, analyser la description
Après la réception de données, il est impossible de commencer immédiatement à nettoyer les données ou la formation des tissus, mais il est d'abord comprendre les données (à l'exception de l'analyse de la modélisation, d'autres) Développement des données doit également le faire), donc il peut donc Évitez les trous après pédaler, sinon dix neuf neuf seront terminés.
Cette "compréhension des données", ce qui est spécifique pour comprendre?
Comprendre la signification des affaires et le calcul de la logique
Si la distribution de chaque fonctionnalité se conformer à la relation entre les fonctionnalitésprévues, que la logique de base
est liée aux fonctionnalités et aux valeurs cibles. Conformément à la logique de base
dans l'analyse de corrélation, les variables peuvent être affichées par lah Calculer le coefficient de corrélation ou la présentation de dessin; Les variables de digare et de classification peuvent être affichées par une carte de la ligne.
Lundi, manque de manipulation de la valeur
Après avoir compris les données préliminaires, certains comportements de traitement de données doivent être effectués.
La première étape consiste à gérer une valeur manquante, souvent basée sur la quantité d'échantillons et au taux manquant, afin de déterminer la suppression de la "carence" ou des valeurs manquantes.
Le processus spécifique peut être:Nombre de modèles de calcul NICE N, chaque caractéristique du manque de données médicales, suppression de la vitesse de x caractéristiques de données d'échantillon;
L'absence de comparaison de modèles élevée est souvent supprimée; Parce que de nombreuses fonctionnalités sont manquantes, il est difficile de remplir davantage, même si la déviation d'informations est relativement importante.
Si une caractéristique n'a pas de taux de y relativement important, la suppression de la fonctionnalité sera supprimée; Si le taux d'absence de caractéristiques est faible et que la quantité d'échantillon est relativement importante, la suppression de l'échantillon peut être supprimée; Si le nombre d'échantillons plus petits supprime, la valeur manquante est alimentée.Le manque de valeurs est rempli de:
Remplissez le nombre de fonctionnalités, moyenne ou moyenne; ou exemple de formulaire de mise en œuvre, en fonction du nombre moyen de valeurs en classe;
Remplissez le formulaire effectué par la méthode de régression, la valeur manquante est utilisée comme variables et autres fonctionnalités pour exécuter des arguments à prédire; Peut aussi être plus compliqué, tel que le multiplexage.
Traitement des données anormalesAprès traitement de la valeur manquante, il est nécessaire d'effectuer un traitement inhabituel des données.
Introduisait précédemment une méthode de traitement de données inhabituelle, analyse des données - identification inhabituelle des données; Ceci introduit une série d'identifications de données inhabituelles pour s'adapter à différents scénarios.
Traitement de normalisation de données
pour de nombreux modèles tels que la régression linéaire, la régression logique, le cluster KMEAN, les coefficients différentes caractéristiques sont requises ou la distance d'échantillon.
Dans le casDans ce cas, si le nombre de caractéristiques différentes est particulièrement important, il affectera sérieusement les coefficients et calculera la distance, et même ce calcul va perdre du sens; Donc, il doit être fait avant la modélisation. Pour aller à la taille, faire la normalisation.
Bien sûr, certains modèles n'ont pas besoin de normaliser les données, telles que des arbres de décision, des forêts aléatoires, des baies simples, V.V.
Utilisation actuellement des méthodes de normalisation de données:
1) Minimum - Normalisation maximale
(X-Min) / (MAX-MIN), Normalisez-la
2) la valeur de zigration z(x-moyenne) / écart type, spécification est 0, écart type est 1; Si tel est le cas, si le point est affecté, il peut être remplacé par le remplacement moyen des écarts types.
Il convient de noter que si vous distribuez un échantillon très biaisé, vous pouvez d'abord transformer la boîte à Cox, puis la normaliser pour une distribution normale.
5.Sélection des fonctionnalités
Après le nettoyage des données de base et la conversion caractéristique, la sélection de caractères et la raison pour laquelle les options caractéristiques sont les suivantes:
] Certaines caractéristiques ont plusieurs copies, cette situation est relativement grande pour la régression linéaire et régression logique;
Il y a trop de fonctionnalités, certaines fonctionnalités ont accru la complexité du modèle mais ne sont pas liées au modèle, pas à tous les moules, doivent dépasser une valeur supérieure.
1. Multi-linéarité
: Le modèle est expliqué entre l'existence de la corrélation exacte ou une relation de corrélation élevée estime que la déformation ou le niveau de difficulté estime exactement.
Effets:
- 1) affecte la stabilité du modèle et affecte l'explication du modèle.
Par exemple, on pense que les dépenses de consommation = 0,3 * revenus, la production modèle peut être la suivante:
Dépenses de consommation + revenus 1.3 * Revenu 1.6 * Revenu - Dépenses de consommation
Le même numéro de chiffre, calculer différentes formules, sera expliqué et modèle stable très modèle.
2) Le modèle de régression linéaire peut causer la plus petite estimation au carré de calculer le coefficient, même lorsque le calcul de la méthode de coefficient est également très important, en particulier 1), aucune stabilité.
Détermination: Le coefficient de corrélation entre les caractéristiques de calcul est caractérisé par une corrélation particulièrement élevée, en fonction du service pour conserver la représentation des caractéristiques;
Élargir les coefficients (VIF).Calculer que chaque caractéristique est équipée d'autres fonctionnalités, telles que la fonctionnalité J, le coefficient d'identification linéaire est équipé par d'autres caractéristiques r2; Souvent approprié, plus le coefficient de décision et le plus grand et le plus grand peut atteindre 1.
donc lorsque le coefficient élargit la variance trop grande, cette fonctionnalité comporte plusieurs copies. Globalement supérieur à 10 sera considéré comme un problème multi-linéaire relativement fort.Comment résoudre:
Supprimer une caractéristique linéaire commune;
Si le modèle de régression linéaire, l'estimation de la crête récupérie peut être utilisée.2. CARACTÉRISTIQUES Différentes applications et scripts
Pour des problèmes à deux couches, la logique du filtre a: le dépistage de niveau une division relativement élevée de deux résultats de tri; Peut être criblé en calculant la taille de la valeur IV (valeur d'informations), la valeur IV supérieure, la spécificité du deuxième résultat de la classification est plus différente.
Prédire la régression, principalement pour la régression de plusieurs lignes. Les méthodes de dépistage des caractéristiques sont les suivantes: méthodes de choix de sous-ensembles, de méthodes régulières et de diminution.
1) Le procédé de choix de configuration de la fonctionnalité
Le procédé de choix de la fonctionnalité a une méthode de transition et de modes progressivement choisissez étape par étape. Par étape:
a) Étape de sélection étape par étape Les méthodes spécifiques sont de 0 représentationG, étape par étape de la fonction restante rend le modèle conformément au modèle adapté aux erreurs, pour obtenir le modèle destiné à la combinaison de fonctionnalités optimistes supplémentaires.
- B) Sélectionnez progressivement
et choisissez étape par étape, uniquement à son tour, laissez toutes les caractéristiques dans le moule, puis retirez l'effet de l'effet, de sorte que les progrès optimisent.
2) Facteur de compression principale et caractéristiques sans signification
La méthode d'utilisation facile est lasso.
Notre régression linéaire ne veut que son erreur égale et au moins, mais la fonction d'objectif de Lasso ajoute un facteur après la fonction cible d'origine. Cela permet à la fonction cible d'atteindre le coefficient de zéro, réalisant ainsi des fonctionnalités.3) PCA DEWING
Il s'agit d'une nouvelle caractéristique indépendante d'une caractéristique linéaire associée à une relation linéaire caractéristique. Donc, il ne correspond pas aux fonctionnalités d'origine indépendamment indépendantes.
ci-dessus est le processus de préparation précédent du modèleChimie de données.Après cela, la formation modèle peut être démarrée et les résultats du modèle sont prédits et cette section est des modèles différents.Le traitement spécifique varie.Méthode. En résumé, l'analyse des données, le nettoyage des données et les fonctionnalités avant la modélisation de la formation est très importante et même les principaux facteurs déterminent si le modèle réussit ou non, cette partie doit donc aller bien.Merci de lire, ce qui précède est ce que je veux partager ~