1. D'où vient de petites données?
La science des données, la machine d'analyse et d'apprentissage connexes, et la machine d'apprentissage est principalement autour de "grandes données". Ces grands ensembles de données contiennent des documents, des utilisateurs, des documents, des requêtes, des chansons, des images, des centaines de milliers, des millions et un milliard de milliards. Au cours de la dernière décennie, l'infrastructure, les outils et les algorithmes de ce type de données ont été développés très rapidement et il s'est amélioré.
La plupart des scientifiques de données et praticiens universitaires ont accumulé une expérience dans de tels cas, peu à peu familiers avec ceux qui l' utilisent, et ceux qui ont souvent besoin de considérer qu'il ya une bonne intuition ci - dessus (généralement besoin de considérer, y compris les écarts et variance, flexibilité et stabilité, caractéristiques manuelles et caractéristiques, etc.). Cependant, les petits ensembles de données apparaissent toujours au fil du temps et les problèmes d'accompagnement sont souvent difficiles à manipuler des difficultés, nécessitant un ensemble d'algorithmes différents et de compétences différentes. Les petits ensembles de donnéesActuellement, dans les cas suivants:
Enterprise Solutions: Lorsque vous essayez de fournir une solution à une entreprise un nombre relativement limité de personnes, au lieu de fournir une solution unique pour des milliers de personnes à utiliser.
Temps de la série: Fournir le temps est à la recherche! Surtout par rapport aux utilisateurs, aux guides de requête, aux sessions, fichiers, v.v. Cela dépend clairement de l'unité de temps ou du taux d'échantillonnage, mais n'est pas facile à échantillonner à chaque fois. Par exemple, les données d'étalonnage que vous obtenez sont une journée, alors vous n'avez qu'un point de données tous les jours.En ce qui concerne les modèles suivants des échantillons suivants: État, État, équipe sportive ou toute combinaison sont limités (ou des échantillons coûteux). "Commentaire: Exemple: Jusqu'à 50 états aux États-Unis
Test A / B multi-variable: leur méthode de test ou de combinaison deviendra un point de données. Si vous envisagez 3 dimensions, vous serez configuré 4 sections de Chaque dimension et vous aurez 12 points. »Remarque: par exemple, dans le test Web, sélectionnez la couleur de la police CTaille de la police, taille de la police, polices de trois formes, puis avoir quatre couleurs, quatre polices, quatre polices "
n'importe quel phénomène rare, tel que des tremblements de terre et des inondations.
Lundi, de petits problèmes de données
Il existe de nombreux petits problèmes de données, mais principalement autour de la variance élevée:Il est difficile d'éviter une intégrité excessive
, vous n'avez pas de données excessivement formées, parfois excessives pour vérifier les données.Valeur du groupe. (Points inhabituels) devient plus dangereux.
Normalement, le bruit semble être un problème réel, existent dans la variable cible ou dans certaines caractéristiques.Mardi, comment traiter les cas suivants
] 1 - Louer une statistique
Je ne plaisante pas! Les statistiques sont le nombre initial de scientifiques. Les statistiques sont nées lorsque des données sont plus difficiles à obtenir. Les statistiques sont donc très claires pour traiter des problèmes de petits échantillons. Vérifier les statistiques , Modèles de paramètres, auto-déménagements (bootstrapping, technologie de réparation d'échantillonnage) et leD'autres outils mathématiques utiles appartiennent aux statistiques classiques, au lieu d'apprendre des machines modernes. Sans bon professionnel, vous pouvez engager une marine, un animal, un psychologue ou quiconque a été formé pour être traité pour de petits échantillons. Bien sûr, leur histoire professionnelle est proche de votre domaine. Si vous ne voulez pas embaucher une maison statistique à temps plein, vous pouvez demander des consultants temporaires. Mais statistiquement loué par une classe peut être un très bon investissement.
2 - Conformité à un modèle simple
Plus spécifiquement: Conformité à un ensemble d'hypothèses limitées. Le modèle de prédiction peut être considéré comme un problème de recherche. Du lot d'origine des modèles possibles, le modèle convient le mieux à nos données élues. Dans une certaine mesure, chacun de nos points sera traité, donner des votes modèles n'a pas tendance à créer ce point, offrant un modèle pour produire ce point à voter. Lorsque vous avez beaucoup de données, vous pouvez rechercher un qualificatifElle dans un grand mari modèles / hypothèses, et a finalement trouvé un modèle approprié. Lorsque vous n'avez pas de points de données multiples depuis le début, vous devez commencer à partir d'une très petite hypothèse (par exemple, des modèles linéaires contenant 3 autres poids, la profondeur du modèle d'arborescence décide moins de 4, contient dix modèles d'arbres décisifs contenant dix Temps égaux, tableau de conteneurs). Cela signifie que vous exclure des idées complexes, telles que des significations interactives entre non linéaires ou caractéristiques. Cela signifie également que vous ne pouvez pas correspondre au modèle avec trop de degrés de liberté (trop de poids ou de paramètres). Dans le cas approprié, utilisez de fortes hypothèses (par exemple, poids d'apesanteur, caractéristiques spécifiques, distribution, V.V.) afin de réduire les éventuelles hypothèses.
Tout modèle fou peut correspondre au seul point.
Lorsque nous avons plus de points de données, moins de modèles peuvent correspondre à ces points.
Photos de Chris Bishop"Mode d'identification et machine d'apprentissage"
3 - En utilisant beaucoup de données autant que possible
Voulez-vous créer un filtre anti-spam personnalisé? Essayez de construire dans un modèle général et formez ce modèle à tous les utilisateurs. Travaillez-vous pour PIB dans un pays? Essayez avec votre modèle pour correspondre à tous les pays où vous pouvez obtenir des données, vous pouvez utiliser l'important échantillonnage pour mettre l'accent sur le pays que vous aimez. Essayez-vous de prédire un volcan particulier éclaté? Vous devriez savoir comment faire.
4 - Effectuer l'inspection pour effectuer
N'utilisez pas l'ensemble de vérification. Si vous essayez de devenir une technologie différente et d'utiliser un ensemble de données dédié pour les comparer, vous devez supprimer la manière dont ces résultats sont statistiquement efficaces et qu'il sait qu'il ne doit pas nécessairement être un bon modèle pour d'autres données avec des échantillons.
5 - Nettoyez vos données
lors de la manipulation de petits ensembles de données et de petites donnéesDes points inhabituels spéciaux sont ennuyeux. Pour obtenir un meilleur modèle, le nettoyage de vos données peut être très important. Ou vous pouvez utiliser un meilleur modèle, en particulier pour des points inhabituels. (Exemple: régression de la course)
Option 6 Caractéristiques
Je ne suis pas un ventilateur extrêmement sélectionné par des fonctionnalités claires. Je choisis généralement la moyenne de régulier et de modèle (ci-après décrit ci-dessous) pour éviter une condition physique excessive. Toutefois, si les données sont vraiment très peu petites, une caractéristique claire est parfois très importante. Si possible, il est préférable de créer des fonctionnalités ou de supprimer une expertise dans un domaine certain, car les méthodes complètes (telles que la sélection sous-ensemble ou la sélection gourmande) peuvent être équipées excessives.
7- Utilisation régulière
pour empêcher le modèle, il réduit l'efficacité de l'efficacité sans réduire le nombre de paramètres réels dans le modèle, les réglementations principales sont presque une solution périodique.. L1 est formel avec un modèle de construction de paramètres moins zéro, mettant en œuvre l'effet de sélection caché des fonctionnalités. L2 est régulier avec des paramètres plus conservateurs (presque 0), ce qui équivaut à la paramètre priori (la théorie des baies) capable d'obtenir une efficacité. Normalement, L2 a une meilleure précision de prédire L1. "Remarque: l'effet L2 régulier fait du poids, les gens croient souvent que le poids plus petit parle dans le sens, montre que le réseau a une complexité inférieure et il est juste de faire correspondre les données. Cette règle a également appelé Oka.."
Véritable L1 permet à la plupart des paramètres de devenir 0
8 Utilisation de modèles Modèles
Moyenne d'un effet similaire, il réduit la différence, améliorant la généralisation, mais c'est Une technologie générale qui peut être utilisée sur tout type de modèle, même sur une seule collection de modèles hétérogènes. L'inconvénient est de créer un modèle moyen, ce qui permet de manipuler une variété de modèles et VL'évaluation du modèle devient très lente. Le modèle moyen des ensachages et des baies sont deux modèles de modèles bien.
Chaque ligne rouge est un modèle approprié.
Après la moyenne de ce grand modèle de grande différence, nous avions une courbe lisse, bien équipée de la distribution des points de données d'origine.
9- Essayez la modélisation et le modèle moyen Bayes
Ce n'est toujours pas ma technologie préférée, mais le raisonnement bayésien peut convenir à la gestion des ensembles de données plus petites, en particulier lorsque vous pouvez utiliser des connaissances professionnelles pour construire un paramètre à l'avance.
10- J'aime utiliser une heure
En plus de construire un modèle prédictif, c'est une bonne idée d'estimer ce modèle. Pour une analyse de régression, il s'agit souvent d'une gamme de valeurs axées sur des estimations de points et des valeurs réelles dans cette section à un niveau de confiance de 95%. S'il s'agit d'un modèle classifié, il lLiée à la probabilité de classification. Cette estimation est plus importante pour les petites données, car certaines fonctionnalités du modèle ne sont pas meilleures que d'autres caractéristiques. Le modèle décrit ci-dessus nous permet de bien faire confiance en la régression, la classification et l'estimation de la densité. C'est également utile lorsque vous évaluez votre modèle. L'utilisation de modèles de modélisation de modélisation nominale vous aidera à éviter les conclusions de nombreuses erreurs.
Vos données sont malheureuses lorsqu'elles apparaissent dans certaines zones de l'espace de fonctionnalité, la confiance de la confiance devrait avoir une réponse de réponse.
Booffs de la carte de performance obtenus avec ROC.
4, résumé
ci-dessus est un peu plus, mais ils entourent tous trois sujets: modèles de liaison, douceur et qualité de planification. Images utilisées dans l'article "Identifier le mode et la machine d'apprentissage"
,
Annexe: Notes de traduction:
1. La différence entre sens
1, tout maintenant et qu'est-ce que c'est maintenant et qu'est-ce que c'est maintenant et maintenant?
Selon & lt; & Lt; Expliquez le dictionnaire américain traditionnel [double] & gt; & Gt;
1. Parfois et encore et encore:
au fil du temps, souvent; De temps en temps
(2) à chaque fois
au fil du temps; De temps en temps
, parfois
2 de temps en temps
[
2. De temps en temps (
Ces deux phrases sont fondamentalement essentiellement, et elles peuvent également être considérées, de temps en temps. La fréquence se produit est faible. De temps en temps. La fréquence se produit un peu plus haut.
2, Documents et dossiers
Les documents sont des documents, les fichiers sont des fichiers. Le fichier comprend une image, une image plus grande, son audio et une vidéo, V.V. Et documents principalement traitent des documents texte.
3, Trade-off
Web, papier faisant référence à certaines variables, remèdes et variance, flexibilité et stabilité, extraction des fonctionnalités manuelles et extraire des fonctionnalités automatiques. Il est nécessaire d'équilibrer les deux aspects et ne peut être biaisé que.
4, pays, pays, état
Trois personnes peuvent être traduits dans «pays», mais le sens est différent.
Le pays faisant référence au pays, outre le territoire ou la population est également "rural".
, comme: la Chine est un pays d'art. La Chine est une nation socialiste.Pays se référant au pays, se concentrant sur le pays.
, comme: nationwide est / est excitée.L'État se référant au pays et au gouvernement, le gouvernement, peut également mentionner l'État du pays.
, comme: la France est l'un des pays membres de l'ELL. La France est l'un des pays membres de l'Union européenne.
5, population
Modélisation générale de National GIA, pays, équipes sportives ou toute situation que les gens sont limités. Ceci est globalement, pas une population.
6, Objectif général
Multi-Ust, multifonction, universel
7, de la manière de la manière de
D'une certaine manière, d'une certaine manière en bloquant, bloquant, embarrassant, comme empêchant quelqu'un de faire quelque chose sur la route, sur le point de venir un peu de peu de soi autour du coin n'existe pas de cette façon , faire la voie de
lundi, biais et variance:
1. Comprendre le concept
Dans certaines personnes utiles qui ont besoin de savoir sur l'apprentissage Machines, les erreurs de généralisation peuvent être décomposées dans des erreurs et la compréhension de la variance.
La tendance: a tendance à apprendre les apprenants de manière continue à comprendre la même chose erronée, l'estimation moyenne de certains algorithmes d'apprentissage peut atteindre le niveau de cible d'apprentissage (sortie cible).
PFaux encens: la tendance à l'apprentissage des choses aléatoires ne distingue pas le signal réel, le niveau estimé d'algorithmes d'apprentissage face à différents ensembles d'entraînement dans la même taille. Par exemple, l'arbre de décision a appris sur différentes données de formation créées dans le même grand phénomène. En fait, ils devraient être les mêmes.Du coin image
Le cœur cible est un modèle de prédiction parfait, à l'écart de la cible, la vitesse précise est abaissée. Le point sur l'objectif représente un modèle donné sur un certain ensemble de données. Lignes verticales, écarts élevés: des écarts élevés indiqués loin, la faible déviation montre que les lingots d'or se rapprochent; La variance horizontale, élevée et basse signifie le "processus d'apprentissage" multi-time, plus dispersé et plus concentré.
Caractéristiques Ted-Craft Ted Ted
Obtenir des fonctionnalités dans des recommandations personnalisées:
Caractéristiques: Créer, extraireT avec des connaissances ou une automatisation spécifiques du ciblage, de la suppression ou de la modification des combinaisons sont caractérisées. Ces caractéristiques peuvent être claires, telles que des marques, peuvent également demander un calcul de modèle complexe, tel que la fermeture de la relation entre A et l'utilisateur B sur Facebook (FB Occasion Tree a décidé de créer un vecteur, c'est le vecteur qui détermine la recommandation sur leurs flux de nouvelles.)
1. Utilisez le développement et l'extraction des connaissances scolaires
. C'est presque le fait que la technique est présentée pendant une longue période: comment personnaliser et utiliser des variables exprimées sous la forme de fonctionnalités. La méthode générale consiste à penser à vous comme utilisateur cible de cet élément, le type personnalisé que vous souhaiterez.
2, caractéristiques directes et fonctionnalités indirectes
Fonctions directes caractéristiques extraites telles que les marques, caractéristiques caractéristiques indirectement possibles à partir d'une fonctionnalité directe ou de combinaisons de donnéesGrands calculs.
3, sélectionnez Caractéristiques
Cette section est relativement avancée, relativement proche du travail de recherche des machines d'apprentissage. Il est généralement de deux manières: sur la base de la sélection manuelle sur les connaissances de domaine et les méthodes de sélection automatique.
Pour les modèles de règles d'association et de règles statistiques, sélection manuelle plus large. Par exemple, nous avons le vecteur caractéristique de la ligne de base, ajoutant maintenant des intérêts de la marque, en donnant un certain poids, voir si le résultat de la sortie de la fonction d'évaluation a amélioré l'effet proposé.
Pour les modèles d'apprentissage, le poids de chaque fonctionnalité peut être automatiquement sélectionné et les paramètres du modèle sont ajustés en fonction des effets de l'effet.
test multi-variable et test AB
1, test A / B:
A / B Test essentiellement une expérience distincte, des coûts techniques et les coûts des ressources des tests relativement élevés A / B, tels queNH est maintenant une série d'outils de test visuels professionnels, les tests A / B sont devenus des méthodes plus courantes et plus courantes pour optimiser les sites Web.
Utilisation du premier test A / B Besoin de créer la page de test (la page de variation), cette page peut différer de la page d'origine (la page de contrôle) dans le titre, la couleur de fond, le mot, puis deux pages sont poussés dans des routes simultanées pour toutes les images utilisateur. Ensuite, le taux de conversion d'utilisateur de deux pages est statistiquement, qui peut être clairement compris entre les avantages et les inconvénients des deux conceptions.
2, test multi-variable
Test multi-variable, est le concept de dépassage de tester A / B. Dans A / B Test, vous devez créer plusieurs pages pour mettre en œuvre la conversion de contrôle. et tests multivariés à l'aide de vos méthodes de réflexion "module" - Votre page (divisée en plusieurs modules) n'a pas besoin de plus de versions, mais d'allouer directement des tissus-module cette page, de sorte que différents modules de page sont liés hPour différentes visites. De cette manière, vous pouvez étudier les relations et les interactions entre les parties de la page via certains outils mathématiques relativement complexes, non seulement une version plus utile.
Année, Bootstrap - Auto-test
Le procédé appelé bootstrappe utilise des informations d'échantillonnage limitée par l'échantillonnage répétitif et la réinitialisation suffit à exprimer la distribution des motifs maternels. Nouveau modèle.
Pour un échantillon, nous ne pouvons calculer que la valeur des statistiques (telles que la moyenne) et ne peut pas connaître la répartition moyenne des statistiques. Mais par eux-mêmes (auto-déménagement), nous pouvons simuler la distribution approximative des statistiques moyennes. Avec beaucoup de distributions, vous pouvez le faire (par exemple, le résultat du résultat que vous lancez).La mise en oeuvre de la méthode de bootstress est simple, supposant que la taille de l'échantillon que vous extrait est N:
Il y a une réinitialisation de l'échantillon, extraitẤ n fois. Chaque fois qu'un nouveau formulaire est formé, plusieurs fois, formant de nombreux nouveaux modèles et une distribution d'échantillons peut être calculée par ces modèles. Quel est le nombre de nouveaux échantillons? Peut-être que 1000 est presque identique, si le coût de la petite calcul, ou la précision nécessite une hauteur, ajoutez le nombre de nouveaux échantillons.
Quelle est la précision de cette méthode? Je suis toujours incertain, devine la taille de l'exemple d'origine N et le nombre de nouveaux échantillons créés par Bootstraping, plus il est précis, plus inconnu, plus détaillé, inconnu, je veux connaître certaines personnes atteintes de connaissances de la distribution.
Vendredi, le tableau du baril
"LOCT" signifie "graphique (graphique, graphique)".
1.N = HIST = [Y)
La case des éléments des 10 conteneurs égaux est séparée et renvoyé le nombre d'éléments dans chaque conteneur. Si y est la matrice, HIS fonctionnent dans la colonne.
(Y élément vectoriel est calculé en moyenne dix foistemps égal et retourne chaque nombre d'éléments d'un conteneur. Si y est la matrice, la commande historique est configurée par les éléments. Les exemples 1 et 2 sont décrits dans le cas d'un vecteur, tel que le cas de la matrice, voir exemple 3.)
Exemple 1. Directive
& GT; & Gt; y = [1:10];& GT; & Gt; HIST (Y)
Obtenu
10 carrés bleues, chacun correspondant à un conteneur et à sa longueur indique des données dans le conteneur. Selon l'image, la quantité de données dans le conteneur est 1. Ces exemples sont atypiques, voir exemple 2.
Exemple 2. Instructions de mise en œuvre
& GT; & Gt; y = [1, 2, 2, 5, 6, 8, 11];
Y max 11, au moins 1, la distance [1, 11] est divisée en 10 points, est [1, 2] (2, 3 ], (3, 4), (4, 5), (5, 6), (6, 7], (7, 8), (8, 8), (8, 9), (9, 10), (10, 11).
Sept, la méthode principale: principale L1 et L2, épisode en expansionDonnées up, abandonnée de l'école
TEMPS: 2015-03-14 18: 32:59
Tags: Machine d'exercices d'exercice Machine
Cet article est "réseaux de neurones et Apprentissage profond "Partie 3 Dans la revue, parler de fréquents couramment utilisés dans l'apprentissage d'algorithmes / profondeurs.
1, la méthode régulière: empêchant la consolidation et l'amélioration de la généralisation
lorsque les données de formation ne sont pas suffisantes ou dépassées, elle provoque généralement une excès excessive (exquise). Ses performances visuelles sont affichées sur l'image ci-dessous, avec le processus de formation, le réseau lorsque les données de formation diminuent, mais l'erreur de confirmation augmentera progressivement - car le réseau qualifié est équipé de la création d'excavatrice et des données en dehors du ministère de la formation ne avoir à s'inquiéter.
Pour empêcher excessive, de nombreuses méthodes seront étendues ci-dessous. Il y a un concept qui doit être expliqué en premier. Dans les algorithmes de la machine, nous divisons souvent les données d'origine en trois parties: données de formation, données d'authentification, données de test. LQuelle est cette confirmation? Il est vraiment utilisé pour éviter l'ajustement. Au cours du processus de formation, nous l'utilisons souvent pour identifier un certain nombre de paramètres d'exception (tels que la spécification de la taille de l'époque pour arrêter de commencer tôt en fonction des données de confirmation, déterminer la vitesse d'apprentissage en fonction de la réception des données). C'est pourquoi cela ne fait pas cela directement dans les données de test? Parce que si vous le faites dans les tests de données, en tant que formation, notre réseau est réellement accablant sur nos données de test, ce qui rend la précision du test final, il n'y a pas de sens de référence. Par conséquent, le rôle des données de formation consiste à calculer le poids des gradients de mise à jour et des données confirmées telles que décrites ci-dessus et les données de test fournissent une précision pour déterminer la qualité du réseau.
Éviter beaucoup de pertinence: Arrêtez bientôt, augmentez bientôt les données, régulier, y compris L1, L2 (L2 Philfero est également appelée décomposition de poids) Dockout.
2, L2 ChiRégularité
L2 est le règlement principal après la fonction de coûts plus un régulier:
C0 représente la fonction de prix d'origine, est la L2 principales règles, c'est la suivante: carré De tous les paramètres W, sont divisés en fonction de la taille de l'échantillon du kit d'entraînement N. λ constituent le facteur optimatique normal, le rapport des éléments principaux et des éléments C0. Il y a aussi un coefficient de 1/2, 1/2, sera généralement vu, principalement à la fin de l'avenir, puis la prochaine instruction créera 2, et c'est juste un compliqué avec 1/2.
Qu'en est-il de savoir comment éviter trop de contes? Nous sommes originaires, premiers instructions:
Il n'y a aucun impact sur la mise à jour de L2, mais a un impact sur la mise à jour de W:
]
Lorsque vous n'utilisez pas la normale L2, le coefficient de frontage W est l'un des résultats de l'image, et maintenant le facteur avant est de 1-λ / n, car η, λ, n est positif, devrait 1-ηη / n inférieur à 1, son L'influence est réduite avec, qui est la source de décomposition de poids. Bien sûr, voir xAppliquez les éléments dérivés suivants, la valeur finale peut augmenter peut également être réduite.
De plus, il est nécessaire de mentionner que la formule des mises à jour W et B, la formule de W et B est donnée différemment:
,
]
Mises à jour de formule de contraste sur W et peut constater qu'il existe une modification de tous les dérivés et multiplicateurs supprimés par η, m sont des échantillons de petits lots.
Jusqu'à présent, nous expliquons uniquement les articles L2 réguliers pour permettre "petit", mais il n'a pas été expliqué pourquoi w "devient plus petit" possible empêcher excessive? On croit: le poids est plus petit que W, dans le sens, indiquant que le réseau a une complexité inférieure et compatible avec des données modérées (cette règle est également connue sous le nom de Razor d'Okham). Dans des applications pratiques, il est également vérifié que l'effet de la normale L2 est souvent meilleur que les effets non qualifiés.
3, L1 Régulier
après que la fonction de prix d'origine a été ajoutée etO Normalement, L1, ce qui signifie que la valeur absolue de tous les poids W, multipliée par λ / n (ici n'est pas la même que la formation L2, nécessité de multiplier avec 1/2, la raison spécifique a été indiquée.)
La même chose est calculée en premier: SGN (W) dans la formule pour représenter le symbole de W. Ensuite, les règles de mise à jour sur le poids sont les suivantes: η * λ * sgn (w) / n est plus que la règle de mise à jour d'origine. Quand W est temps, la mise à jour deviendra plus petite. Lorsque W est négatif, w est mis à jour sera grand - il est donc d'effet de laisser w to 0, de sorte que la pesée dans le réseau soit 0, ce qui équivaut à réduire la complexité du réseau, empêchant trop. De plus, peu importe quoi avec elle, que dois-je faire quand w est 0? Quand w est 0, | W | Non commis, nous ne pouvons donc mettre à jour que W dans la méthode inhabituelle d'origine, équivalent à η * λ * sgn (w) / n, afin que nous puissions spécifier SGN (0) = 0, cela sera également convenu au cas où w = 0. (Lorsque la programmation, SGN (0) = 0, SGN (W & GT; 0) = 1, SGN (W & LT; 0) = - 1) 4, arrêtez L1, la réglementation principale de la L2 est obtenue en modifiant les fonctions de coût et d'abandon déployées déployées en modifiant le réseau nerveux, il s'agit d'une technique de formation réseau (Trike). Son processus est le suivant: Supposons que nous devions former le Web ci-dessus. Lorsque vous démarrez une formation, nous «supprimons» de manière aléatoire la moitié de l'unité cachée, selon eux, n'existent pas, prenez le réseau suivant: Conservez la couche d'entrée Constante de la couche et de sortie, du poids mis à jour dans l'image dans le réseau nerveux selon l'algorithme BP (le périphérique connecté à la connexion défectueuse n'est pas mis à jour car ils sont temporairement supprimés. ci-dessus est un processus répété. Dans la deuxième itération, la même méthode est utilisée, mais seulement la moitié L'unité de couche cachée est supprimée, elle est certainement différente de la suppression de la suppression. Parce que chaque itération est "aléatoire" de supprimer la moitié. Troisièmement,La quatrième fois ... comme ceci jusqu'à la fin de la formation. ci-dessus est en train de sortir de l'école, pourquoi cela aide-t-il à prévenir la réputation? Il peut être simplement expliqué, à l'aide du processus de formation d'abandon, équivalent à la formation de certains réseaux nerveux avec une seule moitié d'unités cachées (alors appelé "demi-réseau"), chaque moitié de ce réseau peut donner le résultat en tant que classification, certains de ces résultats sont corrects, certains faux. Lorsque la formation progresse, la plupart des deux réseaux peuvent produire des résultats de classification précis. Certaines des mauvaises annonces n'auront pas un impact important sur le résultat final. Plus profondément, vous pouvez regarder des papiers Hinton et Alex Two Two Cate 2012 "" Tri des images avec des réseaux nerveux profonds " 5 ensembles de données d'amplification "Parfois non pas parce que l'algorithme a gagné, mais parce qu'il y a plus de données à gagner." Je ne me souviens pas de l'original? Grand bétail dit, Hinton? Il est important de pouvoirDonnées précipitations de celui-ci, en particulier dans des méthodes d'apprentissage profond, de nombreuses données de formation signifie que vous pouvez entraîner de meilleurs modèles avec un réseau plus profond. Parce que cela, collectez plus de données que MAI? Si vous pouvez collecter plus de données, bien sûr, c'est bon. Cependant, plusieurs fois, plus de collecte de données signifient davantage de ressources humaines nécessaires et ils ont un camarade de classe qui a été marqué manuellement, sachant que l'effet est particulièrement faible, il est rugueux. Par conséquent, certaines modifications peuvent être effectuées sur les données d'origine des données d'origine et des ensembles de données d'image utilisées et peuvent être effectuées de nombreux changements différents, tels que: Rotation de l'image d'origine d'un petit angle. Ajouter un bruit aléatoire Certaines distorsions élastiques, "Les meilleures pratiques pour les réseaux de compage sont appliquées à l'analyse des documents visuels" ont créé une série l'amplificateur de variante pour le mnist. Blocage de la partie de l'image d'origine. Par exemple, dans la profondeur, à partir d'une paire d'images de visage, 100 petites patchs lorsque les données de formation ont été bloquées, augmentant considérablement l'ensemble de données. Intéressé à la surveillance de «la réailonnement de l'apprentissage du visage de 10 000 prévisions de classe». Que signifie plus de données? Accuracy94.48% provient de 50000 échantillons de mnist formés et de précision de 93,24% avec une formation d'échantillons de Nun de 5 000 mnist, de nombreuses données peuvent mieux rendre les algorithmes. Dans l'ordinateur, l'algorithme lui-même ne décide pas de gagner et de négatif, ne peut pas dire que ces algorithmes sont excellents, car les données sur la performance de l'algorithme sont beaucoup. Huit, le renforcement et l'emballage L'emballage et l'amélioration sont toutes les classifications faibles (peuvent être interprétées comme une classification ou une régression), une classification mauvaise) est combinée à une certaine règle pour devenir une forte classification. Cependant, la combinaison des deux est différente. Emballage La pensée de l'ensachage est très simple, je choisis un pH pHLa grâce est faible pour classer, puis le vote de résultat final détermine que ce type de bon appartient. Cependant, une étape importante dans l'emballage est lorsque vous entraînez une classification faible, il n'est pas utilisé pour classer l'ensemble de l'échantillon, mais extraire aléatoirement une variété d'ensembles d'échantillons dans l'échantillon, peut être répété peut être répété peut également être plus petit que l'original. Échantillon, qui est bootstraping .. L'emballage très simple, une très grande application la plus célèbre devrait être une forêt aléatoire. 2, Stimuler L'idée de démarrer différemment avec la première différence, de la sélection d'échantillons, y compris des échantillons extraits aléatoires, tandis que renforcée est extraite par la vitesse d'erreur du classificateur précédent. C'est mieux que le type de classificateur précédent qui ne va pas sur les échantillons A, B et F, nous mettrons ensuite la probabilité d'extraire ces trois échantillons pour les aider à former la classification. La deuxième différence, l'emballage est un électeur, mais la véritable amélioration est comme ça et principalement de la croissance hPour une catégorie, pensez que certains classificateurs de poids, taux d'erreur élevés.Le poids de l'unité sera faible et le rapport exact est élevé, la combinaison linéaire est donc le résultat final. Bien sûr, il existe également une combinaison non linéaire de poids, mais ne sera pas décrite ici .Boost est l'application la plus célèbre que l'arbre décide d'améliorer le dégradé, nous l'introduirons dans un article.