1. Deviation & Amp; La variance
Déviation: Décrit comme la distance entre la valeur E "Valeur attendue de la valeur prévisible (valeur estimée) et la valeur réelle, plus la déviation est grande, la pièce autant de compensation des données réelles.
Biais [F ^ (x)] = E [F ^ (x)] - F (x) (1) (1) False [F ^ (x)] = E [F ^ (x)] - F (x)
Collaboration: la plage de p est décrite, le niveau discrète est la maladie de la valeur qu'elle est prévue, qui provient de la valeur de E. Son désir. Le plus grand le plus grand différence, plus la distribution des données.
var [f ^ (x)] = E [F ^ (x) -E [F ^ (x)]) 2] (2) (2) [F ^ (x)] = E [(F ^ (x) -E [F ^]) 2]
Le modèle est la bonne erreur des deux, telle que la formule (3):
[(YF ^ (X)) 2] = écart [f ^ (x)] 2 + var [f ^ (x)] + σ2(3) (3) E [(YF ^ (x)) 2] = Déflexion [F ^ (x)] 2 + var [f ^ (x)] + σ2
Pourquoi la plaine de Bayes est-elle une écart élevé? Mauvaises différences?
Le contenu suivant a été extrait de:
Tout d'abord, supposons que vous connaissiez la relationReliciter et tester. Il suffit simplement d'apprendre un modèle sur le kit d'entraînement, puis de le supporter le jeu de test utilisé et l'effet est bon pour mesurer le taux d'erreur du kit de test. Mais plusieurs fois, nous ne pouvons que supposer que le kit de test et les ministères de formation conviennent à la distribution de données, mais ils ne peuvent pas obtenir de vraies données de test. Comment puis-je mesurer la vitesse d'erreur de test lorsque je ne vois que le taux d'erreur de formation?
Parce que le modèle d'entraînement est très rare (au moins inadéquat), le modèle obtenu à partir de l'ensemble de formation n'est pas correct. (Même si le ratio exact est de 100% dans la trousse d'entraînement, il est impossible d'expliquer qu'il décrit la répartition des données réelles et doit savoir que la répartition réelle des données est notre objectif et non limité points de données du ministère de la Formation. ). De plus, en fait, les modèles de formation ont souvent certaines erreurs de bruit, alors s'ils poursuivent trop la perfection dans la trousse d'entraînement, ils feront le modèle considérer les erreurs dans la formation d'un caractère de distribution diaboliqueVraiment. Cela permet d'estimer la distribution des données d'erreur. Dans ce cas, il est faux du kit de test réel (ce phénomène est appelé approprié). Cependant, il est impossible d'utiliser le modèle trop simple, sinon le modèle ne suffit pas à décrire la distribution des données (reflétée dans la trousse de formation », ce phénomène est plus égoïste). Installation de l'installation de ce tissu l'image est plus compliquée que la La distribution de données réelles et le modèle indépendant est plus simple que celle de la répartition des données réelle.
Il est donc facile d'analyser des baies simples. C'est une hypothèse simple que chaque donnée n'est pas connectéen est un modèle sérieusement simplifié. Par conséquent, pour un modèle aussi simple, la plupart des occasions sont supérieures à la variance, ce qui signifie une déviation élevée et faible.
En fait, pour provoquer une erreur plus petite, nous devons équilibrer la fausse et la variance lors de la sélection du modèle, est trop équilibrée et appropriée.
La relation entre les écarts, la variance et la complexité de la complexité du modèle à l'aide de l'image ci-dessous montre qu'il est plus facile de comprendre:II. Avantages réguliers des images
Lorsque le modèle est compliqué, la déviation deviendra progressivement petite et la variance deviendra progressivement importante.
SIMPI Bayes appartient au modèle créé (contact interférant le modèle créé Et le modèle de discrimination, surtout, vous devez distribuer commun), plus simple, vous devez juste avoir un certain nombre de quantités. S'il existe une hypothèse indépendante conditionnelle (une condition plus stricte), le taux de convergence du classificateur BayesL'octroi sera plus rapide que le modèle de discrimination, tels que les bénéfices logiques, vous n'avez donc besoin que de données de formation moins. Même si les conditions NB sont des hypothèses indépendantes non définies, le classificateur NB reste important dans la pratique. Son principal inconvénient est qu'il ne peut pas apprendre l'interaction entre les caractéristiques, dans MRMR R, est l'excès de fonctionnalités. Citez un exemple classique, par exemple, même si vous aimez les films Brad Pitt et Tom Cruise, mais cela ne peut pas apprendre des films que vous ne les aimez pas ensemble.
Les modèles de baies simples proviennent de la théorie mathématique classique, avec des plates-formes mathématiques solides et une classification stable.
Très bonnes données pour les données à petite échelle, peuvent gérer des tâches multicouches, adaptées à une formation croissante;
Non sensible aux données manquantes, l'algorithme est relativement simple, couramment utilisé pour classifier le texte.
Inconvénients:
nécessitent une probabilité avant;
DécisionLa classification est fausse; Il est très sensible à l'expression des données d'entrée.
La logique renvoie le modèle de discrimination, avec plusieurs modèles principaux (L0, L1, L2, etc.)) et vous ne vous inquiétez pas de votre Caractéristiques impliquées dans la mesure où vous utilisez des baies simples ou non. Comparé à l'arbre de décision, SVM, vous obtiendrez également une bonne explication de probabilité, vous pouvez même utiliser facilement de nouvelles données pour mettre à jour le modèle (à l'aide de l'algorithme de goutte de dégradé en ligne - Dipl dégradé). Si vous avez besoin d'une architecture de probabilité (par exemple, ajustez simplement le seuil de classification, spécifiez l'incertitude ou pour obtenir une zone confiante) ou vous souhaitez intégrer rapidement des données de formation supplémentaires, entrez le modèle à l'avenir, puis utilisez-le.
Fonction Sigmoid: L'expression est l'équation (4).
Avantages:
L Applications simples et importantes pour les problèmes industriels;
Très petite quantité, vitesse très rapide, ressources de stockage faibles;
Probabilité d'échantillon d'observation commode;
Pour les bénéfices logiques, de nombreuses coordination ne sont pas un problème, il peut combiner la L2 ordinaire pour résoudre ce problème;
Lorsque l'espace est grand, la performance de régression logique n'est pas très bonne;
Fity Fit, la précision générale n'est pas trop élevée
sans beaucoup d'autres caractéristiques ou variables; Ne peut gérer que deux problèmes de classification (Softmax dérivé de cette installation peut être utilisé pour plusieurs classifications) et doit être modifié de manière linéaire;
Pour des caractéristiques non linéaires, il faut convertir;
3. Régression linéaire
La régression linéaire est utilisée pour la régression, elle n'est pas utilisée pour le type de tabouret est la régression logistique. Son idée de base optimise la fonction d'erreur de la plus petite forme dans les pentesDharma. 5) (5) w ^ = (xtx) -1xty
dans LWLR (régression linéaire avec du poids local), l'expression de calcul des paramètres est la suivante:
W ^ = (xtwx) - 1xtwy (6) (6) w ^ = (xtwx) -1xtwy
On peut voir que LWLR diffère de LR et de LWLR est un modèle non paramètre, car chaque calcul de régression est approuvé dans le modèle de formation. au moins une fois.
Inconvénients: Les données non linéaires ne peuvent pas être équipées.
4. L'algorithme régional le plus proche - Knn
L'algorithme voisin le plus proche, le processus principal est le suivant:
Organisez toutes les valeurs de distance (ascendantes);
Sélectionnez le formulaire de la première erreur K d'abord;Votez selon ce étiquette d'échantillon, ce qui a conduit à la liste de classificationfinal;
Comment choisir la meilleure valeur K, en fonction des données. Dans des cas normaux, plus grandes classifications peuvent réduire l'impact du bruit, mais la frontière entre la catégorie devient faible. Un K préféré peut être obtenu avec différentes techniques heuristiques, telles que la confirmation croisée. De plus, la présence de vecteurs de bruit et de non-corrélation réduira la précision de l'algorithme adjacent de K-Nid. Les algorithmes de quartier sont forts, car les données sont infinies, l'algorithme garantit que le taux d'erreur ne dépasse pas le double du taux d'erreur des algorithmes de Bayes. Pour une sorte KS KS, le taux d'erreur garanti de K-voisin ne dépasse pas le taux d'erreur théorique de Bayes.
Les avantages de l'algorithme Knn
Peut être utilisé pour classer non linéaire;
La complexité du temps d'entraînement est O (n); secNG a des hypothèses sur les données, une grande précision, non sensible aux exceptions;
Inconvénients
Une grande quantité de calcul (réfléchie dans le calcul de la distance);
Exemple de déséquilibre (ce qui signifie qu'il existe de nombreux échantillons, tandis que d'autres échantillons) sont moins;
Demander beaucoup de mémoire;
De nombreux avantages des décisions sont très faciles à expliquer. Il peut gérer l'interaction entre les fonctionnalités et sans paramétrage sans pression, de sorte que vous n'avez pas à vous soucier des valeurs inhabituelles ni de si les données sont divisées linéairement (par exemple, la décision peut facilement gérer le type A de la taille de la fonction de fin x, Tapez B situé au milieu, puis tapez A apparaît également en cas d'une caractéristique X Taille avant). L'une de ses lacunes n'est pas de soutenir l'apprentissage en ligne, alors après les nouveaux échantillons d'arrivée, l'arbre de décision doit être reconstruit. Un autre inconvénient est qu'il est facile d'apparaître, mais c'est une méthode intégrée commeLa forêt de courant RF (ou des arbres sont améliorés). En outre, des forêts aléatoires sont généralement un gagnant beaucoup de problèmes de classification (généralement plus de vecteurs de soutien), il est rapidement formé et ajusté, et vous n'avez pas à vous soucier de ce qui ajuster une grande pile de paramètres comme supporter des machines vectorielles. sont très populaires.
Il est important de choisir une propriété à la branche. Faites donc attention à la formule de calcul de l'information et à la comprendre.
Calcul des contacts d'entropie comme suit:
N Représentation N Catégories Classification (par exemple, qui sont deux types de problèmes, alors n = 2). Calculez la probabilité de P1 et P2 lorsque ces deux échantillons apparaissent dans des échantillons totaux, peuvent calculer l'entropie dans les informations de la branche d'avance des attributs.
Maintenant, choisissez un attribut XIXI utilisé pour créer des branches, àÀ ce stade, les règles de la branche sont les suivantes: si xi = vxi = v, divisez l'échantillon dans la branche d'arborescence; S'il n'est pas égal, entrez une autre branche. De toute évidence, l'échantillon de la branche est capable de composé de deux types, deux branches d'entropie H1 et H2, calculant l'entropie de branche d'information générale H '= P1 * H1 + P2 * H2, puis à ce stade des informations sur ΔH = H - H " Simple, facile à comprendre, peut être expliqué
plus approprié pour le traitement des motifs avec des attributs manquants;
peut gérer des caractéristiques non liées;
Inconvénients
Il est facile de réduire (des forêts aléatoires peuvent être réduites principalement);
ignorer la corrélation entre les données;
Pour des données incohérentes avec le nombre d'échantillons d'échantillons, les décisions entre les arbres, le résultat de l'augmentation des informations est biaisé pour des personnes plus précieuses (tant que l'augmentation des informations est utilisée de l'application, telle que RF).
6.Antaboosting
Adaboost est un modèle, chaque modèle basé sur la vitesse d'erreur du modèle final et l'échantillon ne peut pas être mise au point et Les échantillons sont liés à la classification exacte après la répétition, un modèle relativement préféré peut être obtenu. L'algorithme est un algorithme d'amélioration typique. Les avantages de la théorie plus peuvent être expliqués en utilisant le plongeon des inégalités. Les personnes qui apprennent l'intérêt à lire cet article Adaboost - nouvel angle de compréhension de la stratégie de mise à jour du poids. Il a résumé ses avantages et ses inconvénients.
Avantages
Adaboost est un classificateur de haute précision.
Lorsque vous utilisez une classification simple, les résultats de calcul sont compris et la construction d'une classification faible est extrêmement simple.
Simple, pas de fonctionnalités de dépistage.excessivement pas arrivé.
Inconvénients:
Support Vector 7.svm
Peut résoudre les problèmes de hauteur, à savoir de grandes caractéristiques;
Peut gérer les interactions des fonctionnalités non linéaires
sans avoir à compter sur l'ensemble des données;
Inconvénients
De nombreux échantillons peuvent être observés lorsque l'effet n'est pas très élevé;
Il n'y a pas de solution universelle pour les problèmes non linéaires, il est parfois difficile de trouver une fonction nucléaire appropriée;
sensible aux données manquantes;
Pour la sélection nucléaire (quatre fonctions nucléaires de Libsvm: noyau linéaire, noyau polynomial, noyau RBF, sigmoïde):
Tout d'abord, si le nombre d'échantillons est inférieur au nombre de fonctionnalités, il n'est pas nécessaire de choisir un noyau non linéaire et l'utilisation d'un noyau linéaire simple peut être utilisée;
Si le nombre d'échantillons est supérieur au nombre de fonctionnalités, le noyau non linéaire peut être utilisé pour mapperUn échantillon de taille supérieure peut souvent obtenir de meilleurs résultats;
Mardi, si le nombre d'échantillons et de caractéristiques spectaculaires, cette situation peut être utilisée comme des principes non linéaires et de seconde.
Pour le premier cas, les données peuvent être réduites, puis le noyau non linéaire est utilisé, ce qui est également une méthode.
Avantages du réseau de neuros artificiels:
La classification est élevée;
La capacité de gérer la distribution parallèle, le stockage de la distribution et la forte capacité d'apprentissage, avec une forte capacité de roulement et une capacité de résistance à une forte faute pour les religieuses, peut être plus étroitement proche des relations non linéaires complexes;
a la fonction de la mémoire Lenovo.
Inconvénients des neuroodes artificielles:
Impossible de passern Processus d'apprentissage étroit, la sortie est difficile à expliquer, cela affectera la réputation et acceptera les résultats;
Le temps d'apprentissage est trop long et il ne peut même pas atteindre des objectifs académiques.
Avantages
Simple algorithme, facile à mettre en œuvre;
L'algorithme tente de trouver K diviseur pour minimiser la fonction d'erreur carrée. Quand des grappes denses, sphériques ou groupéesRetour, et lorsque différentes grappes et grappes de grappes, des effets de regroupement sont meilleurs.
Le type de données est requis plus élevé, conformément aux données numériques;
Peut converger la valeur minimale de convergence locale, grosse débit de données K. K est difficile à choisir;
inappropriés pour explorer des grappes de forme de surface non protectrice, ou cliquez sur la grande règle.
Spécificité des données "bruit" et isolées, une petite quantité de données peut créer un impact important en moyenne.
Avant que l'auteur a traduit des articles étrangers, un article propose une compétence de sélection d'algorithme simple:
Première fois que vous devriez choisir une régression logique, si cela ne fonctionne pas, il peut être utilisé comme référence basé sur la comparaison avec la magieAutres mathématiques;
Essayez l'arbre de décision (forêt aléatoire) de voir si vous pouvez améliorer considérablement vos performances de modèle. Même si vous ne l'utilisez pas comme modèle final, vous pouvez utiliser des forêts aléatoires pour éliminer les variables de bruit, les sélections de fonctionnalités;
"GBDT & GT; = SVM & GT; = RF & GT; = Adaboost & GT; = autre ... ", maintenant dans l'apprentissage profond est très courant, de nombreux domaines sont utilisés à base de réseaux neurologiques. Actuellement, l'auteur étudie également, mais les connaissances théoriques ne sont pas solides, la compréhension n'est pas assez profonde, ici non introduite, j'espère écrire un morceau de brique à l'avenir. Les algorithmes sont très importants, mais de bonnes données sont supérieures à uneBonnes mathématiques et conçoivent d'excellentes caractéristiques sont très bénéfiques.Si vous avez un ensemble de données volumineux, quelles que soient les algorithmes que vous utilisez peut avoir moins d'impact sur la performance de la classification (à ce stade, vous pouvez effectuer des options en fonction de la vitesse et de la facilité à utiliser). RÉFÉRENCE [1] https://fr.wikipedia.org/wiki/bitrias%E2%80%93Varyce_Tradeoff[1233] http http : / / _Blog.echen.me/2011/2011/27/Hhosising-machine-learning- classifuatoire / [3] http://www.csuldw.com/02/26 -02-26-choix -a -Machine-Classroom-Classification /