Skip to main content

Quelle est la régression logique? Expliquer les statistiques de référence est la suivante:


La régression logistique est une analyse de régression appropriée pour procéder lorsque la variable dépendante est dochotomeuse (binaire) comme toute régression des tabourets, la régression logistique est une analyse prédite. Logistique La régression est utilisée pour décrire les données et expliquer la relation entre une variable binaire dépendante et une ou plusieurs variables de données (période ou taux) indépendantes.


L'apprentissage courant peut être résumé comme après trois étapes:


Trouvez la fonction H (c'est-à-dire une hypothèse) dans l'espace d'hypothèse;
Dans les conditions connues, la perte de mâchoire J () a été construite;
Minimiser la fonction de perte, moyenne, pour résoudre le paramètre de régression maximale J (θ) (bien sûr, W et B) dans certains articles).

1. Fonction sigmoïde


Parler de la régression logique, Sigmoid est un point principal, son expression est la suivante:


Cette fonction est un ha ham Les guides principaux, le domaine défini comme (-∞, + ∞), la valeur du domaine est [0, 1], les expressions dérivées sont les suivantes:


















L'obtenir, l'expression (1) équivalente à l'utilisation de résultats prédictifs du modèle de régression linéaire direct pour se rapprocher du logarithme de la marque réelle et appelé "alignement" "Alignement. Régression logit. Utilisez cette méthode Les avantages suivants sont les avantages suivants:


Modèles de direction à modèle de modèle, pas besoin de mettre à niveau l'échantillon;

Les résultats peuvent non seulement prédire les "étiquettes", mais aussi la valeur prévue la probabilité approximative;

Les propriétés mathématiques de la fonction sigmoïde sont bonnes, est une fonction convexe inconnue , de nombreuses méthodes d'optimisation peuvent être utilisées.


Introduisez brièvement les fonctions essentielles de la régression logique, puis la logique est revenue de toute idéologie », quel est le modèle" et la "stratégie" dans trois facteurs (modèle + algorithme + algorithme)?


II.Gulisible estime la capacité et la fonctionPerdu


Dans le livre du Dr Li Air, la fonction perdue (fonction de perte) est utilisée pour estimer la valeur prédictée F (x) de votre modèle et de votre valeur, il s'agit d'une valeur réelle de chargement. Fonction, généralement représentée par L (Y, F (X)), plus la fonction de perte est petite, le modèle du modèle est meilleur que les barres. La fonction de perte est le noyau de la fonction de risque en fonction de l'expérience et constitue également une partie importante de la fonction de risque structurel. La fonction de risque structurel du modèle inclut des risques et des éléments ordinaires à base de risques, généralement les fonctions de risque structurel peuvent être exprimées comme suit:







pour la régression logique, la fonction de perte est un trou de rognage, ou c'est aussi une perte de croix croisée et oui peut être dérivé d'un grand capacité à estimer. Tout d'abord, fournir un modèle XX, une combinaison linéaire peut être utilisée pour utiliser des fonctions linéaires




Selon la fonction Sigmoïde, nous pouvons dessiner la fonction de prédiction:


formule (4) Express y = 1, la fonction de prédiction est Hθ (x). Ici, il est supposé que la valeur de 0 et 1, lorsque Y est 1, lorsque Y est 0, lorsque y est 0, la valeur prédite est de 1-Hθ (x), la formule est indiquée comme suit:



Pour deux expressions, nous pouvons l'utiliser



]

selon la Formule (7), un certain échantillon est donné, nous pouvons créer une fonction fonctionnelle, puis vous pouvez utiliser la possibilité d'estimer beaucoup de pensée pour résoudre les paramètres. Toutefois, afin de respecter la théorie des risques minimum, nous pouvons convertir l'idée de la conscience de MLE pour minimiser la ventilation et maximiser les fonctions fonctionnelles, etc. Fonctionnalité pour réduire le pôle poivré. Pour MLE, il est d'utiliser des distributions d'échantillons connues pour trouver le plus de capacités (probabilité maximale) menant à la valeur de paramètre du phoCe coordinateur; Ou tout paramètre peut nous faire respecter la probabilité maximale de ce flux de données. Le processus d'utilisation de la fonction de perte de LR a l'origine de MLE comme suit.

Premièrement, selon l'hypothèse supérieure, la fonction de capacité maximale correspondante est écrite (Supposons que l'échantillon MM):












] Vive sur l'enfant mentionné ci-dessus n'est pas pratique, afin de faciliter le calcul, nous pouvons prendre le logarithme dans la fonction Soleakephm, on peut obtenu à partir du Dérivé de résultat: Par conséquent, la fonction de perte peut être obtenue avec la fonction minimale de capacité négative, c'est-à-dire la formule suivante: Il existe une autre expression de la fonction de perte, mais La nature est la même, comme suit: Modèles et stratégies mentionnés ci-dessous pour l'algorithme interne Trois facteurs de méthodes d'apprentissage statistique, l'algorithme fait référence à des modèles d'apprentissage spécifiques, à l'optimisation Méthodes de résolution, et ce propriétaireU Introduisez des idées sur les algorithmes d'optimisation des pentes. DROP gradient est également appelé méthode de libération de carburant. Pour résoudre le paramètre θ lorsque la fonction de perte J () est maximisée, il s'agit d'une pente réduite à titre d'exemple et le processus dérivé de la formule de réception est la suivante. En obtenant ci-dessus, le type d'itération final peut être obtenu. SUB: où α est une étape. Algorithme d'optimisation illimitée à la pente de gradient, ainsi que: Méthode NEWTON (NEWTON METHODE) Complexe à gradient de la méthode Méthode quasi-Newton Méthode BFGS L-BFGS (mémoire limitée BFG) Dans l'algorithme d'optimisation ci-dessus, BFGS et L-BFGS sont fabriqués à partir de Phuong Wake Up Johunton, il présente l'avantage d'une pente de réduction progressive. Premièrement, il n'y a pas de pas pour choisir un deuxième manuel, l'algorithme tombe plus rapidement que le gradient. Mais les inconvénients sont ces algorithmes complexesPlus réaliste et réaliste n'est pas aussi bas que des gradients. Mentionné ci-dessus que la fonction de risque structurel comprend des éléments de risque expérimentaux et des éléments ordinaires, et les éléments habituels équivalent au tabouret coordonnant les paramètres précédents. L1 et L2 utilise régulièrement des articles réguliers, des articles réguliers L1, L2 sont "punis" pour les vecteurs de paramètres du modèle, évitant ainsi sur les problèmes les plus simples et les moindres carrés. Il est prescrit comme une information prioritaire, l'ensemble du problème d'optimisation est une perspective bayésienne est l'estimation maximale de l'inspection latérale, dans laquelle la correspondance régulière correspondant à des informations prophétiques dans des estimations raffinées, la fonctionnalité de perte de fonction dans des estimations sous la table, le produit des deux correspondants. À l'estimation exquise des baies et si l'échantillon maximum de test maximum de bayes est effectué, il est capable d'estimer tant de personnes, tellement. Vous trouverez des problèmes devenez instantanément la question la plus optimisée de la fonctionnalitéFonctions pertinentes + Formalisation. Dans la résolution de régression logique, si l'échantillon est ajouté à la forme, une fois le journal terminé, la formule est créée simultanément à un risque d'expérience.L'article habituel avant cela, à ce moment-là, la fonction de risque structurel est. Introduction à LR, toujours PDF pour référence: Lect 6: régression logistique.pdf. Cinq .Reference Andrew ng "Machine d'apprentissage" Learn note https://fr.wikipedia.org/wiki/logistic_urgion https: / / github .Com / johnlangford / vowpal_wabbit / wiki / fit-fonctions Lect 6: Logistic.PDF Régression

Sujets

Catégories