Skip to main content

Le modèle d'arbre de décision est très courant dans la surveillance de l'apprentissage, peut être utilisé pour la classification (deux types, des multi-catégories) et la régression. Bien que les plantes d'arbres, des usines de produits, des usines de produits, V.V. Sera fait, mais «croissance complète» Les décisions sont très simples et intuitives. Il existe une variété d'applications et de décisions que le fondement d'un arbre de collection est compréhensible. En général, un arbre de décision "grandement grandi" contient: la sélection des caractéristiques, la décision des arbres de construction, trois processus, principalement comparant la comparaison de la comparaison ID3, C4.5, algorithme de panier. Il existe une introduction plus détaillée dans la méthode des statistiques.


Avantages et inconvénients

Avantages:


L'algorithme d'arborescence a décidé d'apprendre des règles de décisions simples a défini le processus de modèle d'arbre décisif. Facile à comprendre
Le modèle d'arbre décisif peut être visualisé, très intuitif
large plage d'applications, peut être utilisée pour fumer.Tapez et retour, et très facile à effectuer différents types de classification
peut gérer des numéros et des caractéristiques d'échantillonnage continues




, il est facile de créer des structures d'arbres complexes dans données de formation, conduisant à une excès excessive. La rupture peut réduire l'utilisation négative de l'argent, la méthode commune consiste à limiter la hauteur de l'arborescence, le nombre minimum d'échantillons dans le nœud feuille.
Apprendre un arbre de décision optimal est considéré comme un problème NP complet. L'arbre de décision réel est établi à base d'algorithme de la cupidité heuristique. Cet algorithme ne garantit pas un arbre de décision optimal global. Forêt forestière aléatoire introduite au hasard pour libérer ce problème.

II.ID3 ALGORITHM

ID3 a été proposé par Ross Quinlan en 1986. L'arbre de décision ID3 peut avoir plusieurs branches, mais la valeur de fonctionnalité ne peut pas être traitée.

L'arbre de décision est un algorithme de cupidité. Les caractéristiques de chaque données divisées sélectionnées sont actuellementChoisissez le meilleur et ne vous souciez pas d'obtenir optimal.

Dans ID3, chaque fois que la meilleure caractéristique est maintenant sélectionnée en fonction du "gain d'entropie d'informations maximum" et de toutes les valeurs de la fonctionnalité, c'est-à-dire si une fonctionnalité est de 4 valeurs Et les données seront divisées. Lorsque la fonctionnalité est enfoncée, la fonctionnalité ne fonctionnera plus, il y a donc un mode de vue trop rapide.

L'algorithme ID3 est simple, le noyau est basé sur le gain d'entropie d'informations maximum "Choisir le principe correspond à la meilleure caractéristique de l'ensemble de données actuel, les informations d'entropie sont le concept de la théorie de Pine la nouvelle, plus la mesure est grande. La méthode, plus l'incertitude est grande, plus la confusion, plus confusion, plus d'entropie.


Dans le processus de mise en place d'un arbre de décision, les données sont divisées en fonction des propriétés typiques, faisant l'entropie ( Le chaos) des données initiales «déroutantes» diminue et le niveau de division des données d'entropie réduites dans différentes caractéristiques est différent. Choisissez dansLe niveau d'entropie maximum ID3 est divisé en données (gourmandes), qui est le principe du "gain d'entropie d'information maximum". Ce qui suit est une formule de calcul, de sorte que les informations de calcul de la liaison sont obtenues.



III .C4.5


C4.5 est Ross Quinlan pour améliorer les données ID3 en 1993 Les informations obtenues ont été transmises par. (Les avantages de l'information reflètent un niveau d'informations qui ne sont pas sûrs à l'avenir sont inévitables, mieux c'est que le jeu de données est meilleur, c'est-à-dire les plus petites conditions d'entropie plus petites, les plus grandes les informations).

Pour éviter ces lacunes C4. 5 est un guide pour sélectionner des succursales (taux d'augmentation). Le ratio d'amplification d'informations est pénalisé plus que la valeur moyenne en introduisant un article appelé Shortin VillageG croyez. De plus, C4. 5 a également compensé le problème du problème des propriétés caractéristiques dans ID3. Cependant, la numérisation de la valeur de la propriété doit être scannée en permanence, réduira la performance de la performance C4.5, intéressée, peut laisser un message, qui sera poussé à tout le monde.




Quatre algorithme




Panier (classement de l'arbre de régression) Arbre de régression classé par L. Breiman, J.Friedman, R .olshen et C.Stone sont proposés en 1984. En 1984, les données ont été divisées par des valeurs d'attribut, puis la fonctionnalité ne fonctionnerait plus. Cette méthode de coupe rapide affectera la précision de l'algorithme.

Le panier est un arbre binaire avec une méthode de division binaire et chaque fois que chaque fois les données sont coupées en deux copies et lignes de gauche, l'homme droit et chaque nœud n'a pas de feuilles de deux enfants. Par conséquent, le bouton feuille du panier n'est pas seulement des feuilles 1.


Par rapport à ID3 andC4.5, l'application PANITE est plus, peut êtreUtiliser pour classer ou régresser. Lorsque le panier d'achat est classé, l'index NIKI (GINI) est utilisé pour sélectionner les fonctionnalités du meilleur segment de données. Gini décrit la pureté, semblable à la signification des informations d'entropie. Chaque itération dans le panier réduit l'élément Gini.

L'image ci-dessous montre une demi-entrée d'informations d'information, un indice Gini et un taux d'erreur de classification très étroite. La différence moyenne moyenne est utilisée comme fonction de perte lorsqu'elle est retournée. Le calcul des coefficients NIKI est très similaire à l'augmentation des informations d'entropie. Recette comme suit








Mention que l'algorithme d'arbre décisif est mentionné que l'arbre classe le chariot ID3, C4 .5, mentionné ci-dessus. En fait, les décisions sont divisées en arbres de classification et aux plantes de régression. Le front est utilisé pour classer, tels que Sunny / Nuageux / pluvieux, les utilisateurs de genre, le courrier électronique est le spam, qui est ensuite utilisé pour prédire les valeursRéel, comme la température de demain, l'utilisateur de l'âge, etc. est une comparaison, d'abord, des arbres classifiés, nous savons que l'arborescence de classification ID3, C4.5 est un seuil pour chaque attribut en vedette dans chaque branche et le permet de rendre l'œdème se conformer aux fonctionnalités et à la LT; = Seuil et fonctionnalités & gt; Le seuil est divisé en deux caractéristiques et une entropie à seuil maximale. Selon la branche standard, vous pouvez continuer à branches avec la même méthode jusqu'à ce que les personnes soient incluses dans les seuls nœuds de feuilles de genre ou pour atteindre les conditions de terminaison. Si le sexe dans le dernier nœud de feuille n'est pas unique, le sexe de la plupart des gens en tant que sexe du nœud feuille. Le trafic global de l'arbre de retour est similaire, mais il aura une valeur prédite dans chaque nœud (pas nécessairement le nœud de la feuille), qui est un exemple de A par exemple. La valeur prévue est égale à tous ceux qui appartiennent à ce bouton. La valeur moyenne. Dans les branches, chaque seuil pour chaqueLa fonctionnalité est épuisée pour trouver les meilleurs points de division, mais la meilleure standard n'est plus un maximum d'entropie, mais de minimiser la variance allouée - c'est-à-dire (prévision de l'âge) ^ 2 SUM / N ou Erreur de projection devinez chaque personne et divisez-la pour n.Ceci est bien compris, plus on préfère les personnes, la réduction est fausse, on peut la trouver de trouver plus de couleurs et des branches les plus fiables en minimisant la variance moyenne.La branche jusqu'à l'âge de chaque nœud de la feuille est unique (elle est trop difficile) ou atteint la condition prédéfinie (telle que la limite supérieure de la feuille), si l'âge du dernier bouton feuille n'est pas unique, sur ce bouton , l'âge moyen de chacun est l'âge prévu du nœud feuille.

Sujets

Catégories