Apprendre la machine - Fonction de perte

La fonction de perte est le noyau de la fonction de risque d'expérience et constitue également une partie importante de la fonction de risque structurel. La fonction de risque structurel du modèle inclut des risques et des éléments ordinaires à base d'expérience, peut souvent être représenté comme suit:

Dans laquelle la fonction fonctionnelle moyenne est une expérience fonctionnelle risquée, L représente la fonction de la perte et des normes ordinaires (terme de punition), qui peut être L1 ou d'autres fonctions communes. L'enfant entier signifie la valeur θ lorsque la fonction cible est maximisée. Les éléments suivants énumèrent principalement certaines pertes courantes.

un. Journal de journal (régression logique)

Certaines personnes peuvent sentir que la perte de la fonction de perte de la régression logique est une perte carrée, en vraie méditerranéenne et non. La fonction de perte peut être dérivée de la régression linéaire dans l'hypothèse que l'échantillon est la distribution gaussienne et la régression logique n'est pas perdue.. Dans l'origine de la régression logique, il suppose que l'exemple de service est distribué de Bernuger (Distribution 0-1), puis la possibilité de réagir à la distribution, puis de prendre le nombre d'extractions. Les profits logiques ne recherchent pas une valeur extrême des fonctions, mais d'extrêmement comme une sorte de pensée, puis d'obtenir sa fonction fonctionnelle au risque: une capacité minimale négative (c'est-à-dire max f (y, f (y, f) (x) - & gt ; Min -f (y, f (x)))). Du point de vue de la fonction de perte, il est devenu une fonction de perte de perte.

Formulaires de perte de journal standard:

Il suffit de dire que le nombre de tuberculose est de conseiller les mathématiques, car dans mle, les instructions directes sont plus difficiles, il est donc généralement fait pour récupérer des logarithmes pour trouver des points de valeur extrêmes. La fonction de perte de la fonction l (y, p (y | x)) est indiquée que l'échantillon X atteint la valeur maximale en cas de classification médicale, en d'autres termes, il est d'utiliser une distribution d'échantillons connue pour trouver plusieurs choses possibles (tLa mémoire est la probabilité maximale) qui conduit à la valeur de paramètre de cette distribution; Ou tout paramètre peut nous faire respecter la probabilité maximale de ce jeu de données). Parce que la fonction de journalisation est monotone, Logp (Y | x) atteindra également le maximum, donc après avoir ajouté à l'avance, la maximisation de P (Y | X) est équivalente à la minimisation de L.

Logic Expression p ( y = y | x) comme suit (pour unifier la carte de liste Y y est 1 et 0, l'expression est séparée):

Mettez-le dans la formule ci-dessus , en sortant de l'expression de la fonction de trou de logistique, comme suit:

[La formule de but a été obtenue par régression logique GET enfin comme suit:

ci-dessus est de classer la deuxième. Ici, certaines personnes pensent que la régression logique est une perte carrée car elle ressemble beaucoup à la répétition de sessions et à perdre des carrés tout en utilisant une pente progressive. Illusion visuelle.

Il existe un PDF qui peut être mentionné: conférence 6: registre logistique.pdf.

II. Moyens de perte de fonction (multiplicateur minimum minimum, carré minimum normal)

La méthode la plus petite au carré est l'une des problèmes de régression linéaire et de conversion OLS en une question optimale convexe. En régression linéaire, il suppose que les échantillons et le bruit sont obéissent à la distribution gaussienne (pourquoi supposez-vous qu'une distribution gaussienne? En fait, un petit point de connaissance est caché ici, ce qui signifie un centre très limité, vous pouvez vous référer à " Centre limite de toorem », et finalement, on estime que (MLE) peut être prélevé des plus petits carrés. Principes de base des cellules Le plus petit carré est la ligne d'ajustement optimale qui est la plus petite distance et les lignes de chaque point de la ligne de retour, qui est un carré et un minimum. En d'autres termes, OLS est basé sur la distance et cette distance est la plus sombre multi-euro-Europe. Pourquoi est-il choisi d'utiliser une distance européenne comme une erreur (c'est-à-dire carré, erreur msE), principalement les raisons suivantes:

Calcul simple et pratique;

La distance est un très bon standard similaire;

Les propriétés caractéristiques n'ont pas changé après différentes spécifications.

Les formes de perte standard de moyens sont les suivantes:

Lorsque l'échantillon N, la perte de fonction à ce stade devenant:

YF (X) est indiqué par le reste et la forme complète spécifiée. Le carré du reste et notre objectif est de minimiser cette fonction cible (Remarque: Ce formulaire n'est pas ajouté à l'élément normal), ce qui signifie que le solde minimum du total gauche, RSS.

Dans des applications pratiques, la moyenne (MSE) est souvent utilisée comme indicateur de mesure et formule comme suit:

La régression linéaire mentionnée ci-dessus, ajoutant ce complément, nous avons généralement deux cas, une affaire est la linéaire fonction de la balleIl s'agit de la fonction linéaire de la variable x, l'un est le milieu qui est une fonction linéaire du paramètre α. Dans la machine d'apprentissage automatique, il est souvent mentionné dans le cas suivant.

Mardi, la fonction perd des chapeaux

Ceux qui ont appris que les algorithmes adaboost savaient qu'il était en avance sur des cas spéciaux d'algorithmes supplémentaires, chaque étape est un modèle plus un point et la fonction de perte est une fonction d'index. Dans Adaboost, après répétition, FM (x):

L'adaboost est que l'objectif de chaque itération est de trouver une sous-section miniature lorsque le paramètre α et G:

]
La forme standard de la perte de chapeau (perte d'exp) est la suivante

peut voir que la formule ciblée Adaboost est perdre l'index. Lorsqu'un certain N Sample, la fonction de perte d'Adaboost est la suivante:

Introduction au départ de Adaboost, pouvez-vous faire référence à Wikipedia: Adaboost ou "Statistiques d'apprentissage de la méthode" P145 .

quatre, fonctions de copies perduesMarges (SVM)

Dans les algorithmes de la machine, les fonctions pour perdre des charnières et SVM sont liées à des intérêts. Dans les vecteurs de support linéaire, les problèmes d'optimisation peuvent être équivalents à la sous-correspondance suivante

Côté de la partie:

Par conséquent, l'original est transformé en:
Si λ = 12Cλ = 12cs peut voir que la formule peut voir que la formule et la formule suivantes sont très similaires:

ll dans la première moitié est la fonction de perte de charnières et le dos équivaut à des articles normaux L2.

Forme standard de perte

L (Y) = max (0, 1-YY ~) Y = ± 1L ( Y) = max (0, 1-yy ~), y = ± 1

peut voir que lorsque | Y | & Gt; = 1, L (Y) = 0.

Plus de contenu, reportez-vous à la perte de charnière.

Supplément: un total de 4 fonctions nucléaires chinoises peuvent être sélectionnées dans Libsvm, respectivement:

Noyau linéaire 0;
1-Core DUn noyau conscient

2 -RBF;

Noyau 3-Sigmoïde.

Jeudi, d'autres fonctions de perte

Outre ces fonctions de perte, utilisées souvent: 0-1 Perte de fonction Fonction de perte absolue Jetons un coup d'œil à des images visuelles de certaines fonctions de perte. Regardez Abscissa pour regarder Abscissa, regardez le pliage, puis considérez la perte de fonction. En voir plus et Digest Digestion. OK, écrivez-le d'abord, reposez-vous. Enfin, il est nécessaire de se rappeler que plus les paramètres, des modèles plus complexes et des modèles plus complexes sont plus appropriés. La conformité est que l'effet du modèle dans les données de formation est beaucoup mieux que la performance sur le kit de test. À ce stade, vous pouvez envisager régulièrement. En définissant le paramètre hyper devant les articles habituels, nous examinerons les objets de perte et d'articles habituels, réduisez la taille du paramètre, pour obtenir la simplification du modèle, pour modéliser la bonne vue d'ensemble.reconnaissant. Vendredi.Références https://github.com/johnlangford/vowpal_wabbit/wiki/loss-fults ibrary_design / perte http: // www .Cs.cmu .edu / ~ yandongl / Hole.html http://math.stackexchange.com/questions/782586/how-do-you-thu petite charnière Méthode d'apprentissage statistique "Li Hang est.

Sujets

une fonction

Catégories

Outils de données