BOOTSTRAPING: le nom provient de votre "tirage par Owang Bootstraps", en fonction de vos propres ressources, appelée auto-aide, c'est un endroit pour obtenir une méthode d'échantillonnage Encore une fois, qui est une méthode statistique pour estimer la période dans une statistique estimée importante des non-paramètres. Ses idées de base et ses étapes de base sont les suivantes:
Les échantillons d'échantillons (US) sont extraits de l'échantillon d'origine à l'aide de techniques d'échantillonnage lourdes. Ce processus permet l'échantillonnage plusieurs fois.
Certaines statistiques sont calculées en fonction du formulaire d'échantillonnage.
Répéter N ci-dessus (généralement supérieur à 1000) pour obtenir n statistiques T.
La variance du modèle du N ° Statistique ci-dessus est calculée pour obtenir la phrase des statistiques.
Il convient de dire que Bootstrap est une méthode statistique statistique commune de statistiques modernes, et l'effet est bon dans les petits échantillons. L'estimation peut être construiteConstruire pour créer une partie du signal et la plage d'utilisation est davantage étendue.
- Les algorithmes de sacs sont équivalents à certains professionnels du vote, pour de nombreux tests, chaque modèle renvoie beaucoup prédictions de nombreux résultats en un.
Description des algorithmes d'emballage
Le nombre de cas de données de formation
Pour chaque fois
en T Times
de l'échantillonnage n Données Version de la formation
Appliquer pour le livre échantillonné
pour chaque
à l'aide du modèle pour prédire l'exempleRetour aux prédictions jusqu'à
Emballage: Bootstrap Synthétisé Abrévied. En laissant des algorithmes d'apprentissage multi-roues, la formation définie sur chaque tour comprend N formation d'échantillons aléatoire à partir du kit d'entraînement initial et un modèle de formation initial peut apparaître à plusieurs reprises dans un cycle d'entraînement. Prédire l'ordre fonctionnel
La fonction de prédiction finale H applique une méthode de vote pourLa question de la classification, en utilisant une méthode moyenne simple pour les problèmes de régression pour de nouveaux exemples menés de la discrimination.
[Classification R Formation F_I, identique à la classification du paramètre. Dans laquelle F_I est la collecte de formation (n art art) la collecte de formation de la formation inclut n documents enregistrés. Pour les nouveaux documents D, utilisez ce classificateur R pour classer, le nombre de catégories maximales utilisées comme type final de D.
- Utilisez la méthode d'emballage SCIKIT-HALL TEST
& GT; & Gt; & Gt; De sklearn.ensemble entrez dans l'enclassificateur
& gt; & Gt; & Gt; & Gt; & Gt; & Gt; Gt; De sklearn. Voisins importatent KneighborsClasifiant
& GT; & Gt; & Gt; SABING = BAGGINGCLASTINATIF (KINEIGHBORSCLASTIFUIFUIAS (), ... Max_semples = 0.5, max_features = 0.5)
.
.
. Trois. Améliorer l'amélioration et l'adabotage 1. Description Pour chaque exemple de formation T Cycle: Appliquer des algorithmes d'apprentissage Pour ajouter des ensembles de données et enregistrement du modèle de résultats Calculez l'erreur Erore du modèle dans la partie droite de E et enregistrez cette erreur de 0 ou plus ou égale à 0,5: Le modèle se termine pour chaque Cas dans le jeu de données: Si le modèle corrige l'erreur de classification exacte de multiplier E / (1-E) Effectuer tout le poids individuel Classification pour tous les types de poids 0 Pour chaque modèle T (ou moins T): de prédire la figure de tissu - journal (E / (1-E)) renvoie la couche de poids la plus élevée Ce modèle fournit une méthode de villageG Minh pour créer une variété de types supplémentaires. Experts. Stimulant: La principale chose est adabotrée (amélioration de l'adaptation, améliorant l'adaptation). Lors de l'initialisation, le poids de chaque cours de formation est 1 / N, puis utilisez l'algorithme d'apprentissage pour former la roue de TRAIN T, après chaque cours de formation, la formation de formation échoue, avec un poids important, c'est-à-dire que l'algorithme apprendre à l'apprentissage suivant se concentrer sur la formation plus difficile. Depuis lors, obtenez ainsi une chaîne de fonctions prédictives H1, ⋯, HMH1, ⋯, HM, H_I a certain de poids, de prévision, de fonctionnalités prédictives bonnes et plus petites. La fonction de prévision finale H utilise la méthode de poids de la question de la classification et le nouvel examen est discriminé en utilisant la méthode moyenne pondérée pour les problèmes de régression. Améliorer l'algorithme idéal est une addition à d'autres modèles, chaque modèle est un expert dans ce domaine, mais d'autres modèles ne peuvent pas exprimer ce très bien, comme fonctionner, vous.Recherchez des conseils et des expériences supplémentaires, ne répétez pas. Ceci est distingué de l'algorithme de sac. 2. Décrire l'algorithme Adaboost Création d'un modèle Chaque échantillon dans les données de formation et le poids de la transmission, constitue un vecteur de poids d, la valeur d'origine est de 1 / N à chaque fois Dans le cycle T: Formation Faible classification des données de formation et calcul d'erreur E Si E est égale à 0 ou supérieure au seuil spécifié par l'utilisateur: Modèle de terminaison, rupture de Réglage Poids de chaque échantillon, dans lequel la mise à jour du poids vectorielle D, véritable classification du poids de l'échantillon, poids de l'échantillon de la classification de fausse prix pour chaque échantillon de données Ensemble: Si un échantillon est classé correctement: Changement de poids à D ^ (t + 1) _I = D ^ (T) _I * E ^ (--A) / TOT TOTAL (D) Si l'échantillon Classification des erreurs: Le poids est modifié en D ^ (t + 1) _I = D ^ (t) _I * E ^ (a) / somme(d) Classification Pour tous les types de poids 0 Chaque modèle T (ou moins T) (classification de base): dans le modèle prédit -log (e /) 1-e))) Retourne la couche de poids la plus élevée (similaire à la méthode d'emballage, mais la formation est en série et classée K -1 est pertinente lorsque la classification K-1 est formée. Documents de livraison, qui sont , ne sont pas aléatoires, mais augmente la probabilité de prendre ces documents.) Emballage et augmentation de l'écart La différence principale entre les deux est des échantillons différents. L'ensachage utilise des échantillons homogènes et améliorés en fonction du taux d'erreur, de sorte que la précision de la classification du renforcement de la classification que l'ensachage. La sélection du kit d'entraînement d'emballage est aléatoire et chaque entraînement de la roue est indépendant l'un de l'autre et le choix de chaque cycle de groupe de boostlng est lié aux résultats d'apprentissage de la roue précédente; Différentes prédictions d'emballage n'ont pas de poids et renforcent l poids lDisparu. Différentes fonctions prédictives du tabouret peuvent être créées en parallèle, tandis que chaque fonction prédite d'amélioration ne peut être créée que séquentiellement. Pour les méthodes de consommation de réseaux nerveux. Un million de sacs peuvent économiser beaucoup de temps sur une formation parallèle. L'emballage et l'amélioration peuvent améliorer l'effet de précision de la classification. Dans la plupart des ensembles de données, améliorer avec une plus grande précision. Dans certains ensembles de données, l'amélioration entraînera du déclin sur le survêtement. La méthode Adaboost est améliorée pour améliorer les bonnes idées de performance dans le filtrage des courriels et la classification du texte. Stimulation de gradient (également connue sous le nom de Mart, Treenet): Boosting est une sorte de réflexion, une augmentation de gradient est un moyen de déployer, ses pensées principales sont tous des modèles précédemment établis définir la pente de la perte de perte de fonction. La fonction de perte (fonction de trou) décrit le niveauLe modèle de confiance, plus la fonction de perte est grande, le modèle plus facile sera plus facile. Si notre modèle peut rendre la fonction de perte continuer à diminuer, le modèle n'est pas autorisé à s'améliorer et le meilleur moyen est de fonctionner la perte dans sa direction de gradient. Utilisation de l'algorithme Adaboost apprendre Scrikit & GT; & Gt; & Gt; De sklearn.cross_validation à entrer dans le cross_val_score & gt; & Gt; De sklearn.dataset entrer download_iris & gt; & Gt; & Gt; de sklearn.ensemble entrez dans AdaboostClassClassifiant & GT; & Gt; iris = load_iris () & gt; & Gt; CLF = adaboostclasscater (N_EStimateurs = 100) & GT; & Gt; & Gt; Points = cross_val_score (falaise) & gt; & Gt; Écriture.Mean () [) [) Forêt aléatoire: Forêt aléatoire, comme nom de nom, est une manière aléatoire de construire une forêt, Il y a beaucoup de décisionsDans la forêt, et il n'y a pas de pertinence entre chaque arbre de décision des forêts aléatoires. Après avoir pris la forêt, lorsqu'il y a un nouveau formulaire d'entrée pour entrer, chaque arbre de décision de la forêt est évalué, voir quel type de ce type appartiendra (pour l'algorithme de tri), puis voir les classes sélectionnées, prédisent cet échantillon comme une classe. Dans le processus de fixation de chaque arbre de décision, il existe deux points pour faire attention - échantillon et complètement séparé. Les deux premiers procédés d'échantillonnage aléatoires et échantillonnage d'entrée aléatoire sont nécessaires. Pour les lignes, l'utilisation, c'est-à-dire dans la collection d'échantillons collectés, il peut y avoir des modèles répétés. Supposons que l'échantillon d'entrée soit N, puis le modèle d'échantillon est n. Cela le rend dans la formation, et les échantillons d'entrée de chaque arborescence ne sont pas tous des échantillons, ce qui le rendait relativement facile à apparaître excessivement. Après cela, le modèle de colonne, du M, sélectionnez M (M & LT; M). Après cela, l'arborescence de décision est configurée pour les données d'échantillonnage suivantes, donc un bouton feuille de l'arbre de décision ne peut pas continuer pSéparer, ou tous les autres échantillons sont la même classification. L'algorithme d'arbre de décision générale est une branche d'arbre importante, mais les forêts aléatoires ne le font pas. Étant donné que les deux processus d'échantillonnage aléatoires précédents garantissent au hasard, même s'ils ne branchent pas, il n'apparaîtra pas excessive .. Chaque forêt aléatoire de cet algorithme est très faible, mais tout le monde est très très faible. Il peut plus que des algorithmes forestiers aléatoires: chaque arbre de décision est un expert dans un champ étroit (parce que nous avons choisi M de la pièce M pour apprendre à apprendre), c'est dans une forêt aléatoire. De nombreux experts dans différents domaines, pour un problème de nouvelle personne (nouvelles données d'entrée), peuvent en examiner différents angles, enfin par tous les experts, les résultats du sondage. La différence entre les forêts aléatoires et les forêts de paquet: Forêts aléatoires avec le même nombre d'échantillons d'entrée (peut-être qu'un échantillon sera sélectionné plusieurs fois et certains échantillons ne seront pas sélectionnés) et que l'emballage sélectionne souvent des modèles. Nombre d'échantillons; L'emballage est un classificateur avec toutes les fonctionnalités, tandis que des forêts aléatoires forment certaines parties des caractéristiques pour obtenir un ensemble de classification; Les effets forestiers aléatoires sont meilleurs que les effets d'ensachage! Utilisez des algorithmes forestiers aléatoires pour vérifier Scikit-apprendre & GT; & Gt; & Gt; de sklearn.ensemble entrez dans RandomForStClassClasscom & GT; & Gt; x = [0, 0], [1, 1] & GT; & Gt; & Gt; y = [0, 1] & gt; & Gt; Cliffs = RandomforestClassister (N_EStimateurs = 10) & GT; & Gt; & Gt; CLF = CLF.FIT (X, Y) 5. Soulevez l'arborescence d'arbre de levage de gradient d'arbre de levage ou de gradient (GBRT) C'est une extension de toute fonction de perte différente. GBRT est un programme sensible et efficace qui peut être utilisé dans la régression et la classification. Les plantes de levage de gradient sont utilisées dans de nombreux domaines, tels que des listes de recherche Webet écologie sociale. Sa pensée principale est que chaque modèle d'installation est la direction de déposer des gradients de la fonction de perte de modèle. Cette phrase est un peu, la fonction de perte (la fonction de perte) est le niveau non structuré du modèle, plus la fonction de perte est importante, le modèle plus facile (en fait, il y a une variation, la déviation est un problème, mais ici est supposé ici que plus la fonction de perte est grande, le modèle plus facile). Si notre modèle peut rendre la fonction de perte continuer à diminuer, le modèle n'est pas autorisé à s'améliorer et le meilleur moyen est de fonctionner la perte dans sa direction de gradient. Manipulation naturelle Type de données mixte Un espace de production puissant prédictif mixte renforce fortement une pensée, exprimant «changement d'erreur». Le renforcement de la pente est une fonction d'une fonction (peut également être un modèle) en fonction de cette idée. Premièrement, la fonction est décomposée dans une forme plus (en fait, toutes les fonctions peuvent être ajoutées, mais elle est meilleure dans le cadre et l'effet final est comment.sa.U cela, la répétition est terminée et la fonction de perte est réduite dans la direction de gradient et finalement obtenir un excellent modèle. Il convient de mentionner que chaque modèle est réduit dans la direction des gradients, il peut être considéré comme modèle "petit" ou " faible ", et enfin, nous passerons par le poids (c'est-à-dire à chaque fois la distance progressivement dans la direction des gradients) comment ces modèles" faibles "sont combinés pour former un bon modèle que.