Skip to main content

Premièrement, le principe des arbres de décision

Le principe des décisions est très simple, facile à comprendre, la plus simple est la division binaire, semblable aux plantes binaires. Par exemple, seule la division d'un certain nombre de nœuds est considérée. Si l'âge est supérieur à 18 ans, cela signifie que les adultes, en moins de 18 ans, cela signifie des mineurs.

Deuxièmement, les avantages de l'algorithme

1. L'algorithme est relativement simple;

2. Théorie facile à comprendre;

3. Il y a une bonne puissance pour les données de bruit.

Actuellement, l'arbre de décision est l'une des références les plus largement aux algorithmes théoriques et a reçu une attention approfondie des chercheurs dans l'exploitation minière de données. Se peigner à partir de nombreux algorithmes d'intégration, tels que la forêt aléatoire, l'adabotage, la stimulation des arbres de gradient est un modèle d'arbres de décision.

Mardi, la ligne générale de l'algorithme

1. Collecte de données: Toute phaseéveillé et comment.

2. Données de préparation: l'algorithme de livres ne s'applique qu'aux données nominales, les données doivent donc être séparées de manière uniforme.

3. Analyse des données: après avoir terminé la structure, vérifiez si les graphiques ont une prévision ou non. 4. Algorithmes de formation: Construire des données d'arbre de décision.

5. Algorithme expérimental: En général, les arbres de décision sont utilisés pour la classification et les taux d'erreur peuvent être mesurés, tandis que le taux d'erreur est calculé.

6. Utilisation de l'algorithme: l'arborescence décisive peut être utilisée pour tout algorithme d'apprentissage de surveillance.

4, Exemple d'analyse

1. Informations d'entropie

L'entropie utilisée pour mesurer une valeur attendue du cours de variables de Randel. Plus l'entropie, la plus grande incertitude d'une variable, la valeur supérieure ~, plus la quantité d'informations nécessaires à la créer, entropie est le message moyen de l'ensemble du système. Informations sur l'entropie est un conceptInformations sur la quantité d'informations dans la théorie de l'information. Plus le système, plus le système est inférieur, le système inférieur, plus le système est élevé, plus les informations d'entropie sont élevées. Par conséquent, on peut également dire que les informations d'entropie constituent une mesure de diplôme systématique.

~ 1 ~ entropie ~ entropie ~ formule de calcul

entropie est définie comme la valeur attendue des informations. Premièrement, regardez la définition des informations: L (xi) = - log2p (xi) l (xi) = - log2p (

dans lequel p (xi) p (xi) est de sélectionner cette probabilité de classification. Les informations devraient s'attendre à ce que toutes les valeurs possibles des ensembles de données dans D, ce qui signifie formules d'entropie et calculs comme suit:

entropie = H (D) = E (i (d) = e (i (d)) = - ΣIPILOG2 (PI), PI est une probabilité qui n'est pas différente d'une classe CI dans D. entropie = H (D) = E (i (d)) = - σinpilog2 (PI), PI est une probabilité autre que la classe CI à D.

L'entropie est plus grande, le système est plus confus, moins d'informations sont effectuées. L'entropie plus petite, plus le système est fourni plus d'informations. Le rôle de l'information est d'éliminer l'incertitude.

La fonction de division ID3 est l'information atteinte IG. Plus l'augmentation des informations d'un attribut, indiquant que les attributs capables de réduire le niveau rétro réduiront les échantillons, ce qui permet de ne pas savoir que le catalogue de données devienne une capacité définie. Les prestations d'information appelées statistiques générales et informations sont le ratio de conditions de conditions et de probabilités après vérification et peuvent obtenir des informations après simplification. Par conséquent, l'information mutuelle est vraiment la réalisation de l'information. Méthode de calcul ~ Informations mutuelles = entropie - Condition d'entropie ~. Description de l'entropie est incertaine. Plus l'entropie, plus l'incertitude est grande, les conditions, entropie H ~ B | A ~ Décrivez l'incertitude de B. Si les conditions ENTROLa py est plus petite, l'incertitude est plus petite, puis B plus facile à déterminer le résultat. Par conséquent, l'utilisation d'entropie moins la condition d'entropie obtenue et obtenue les informations obtenues et le niveau de réduction de l'incertitude qu'il décrit peut être utilisé pour mesurer la corrélation des deux variables. Par exemple, dans les conditions d'une variable donnée, une autre variable a beaucoup diminué, réduisant ainsi l'incertitude, puis sa confirmation est la plus facile à distinguer, plus pertinente. Remarque: informations plus petites, plus la pureté de la partition est élevée.

~ 2 ~ Calcul des informations obtenues

Calculez d'abord des conditions expérimentales entropie H (D | A) H sur Dataset D (D | A) H (D | A), en mathématiques est la Distribution de probabilité conditionnelle ~ probabilité de condition ~ h (d | a) = σj | DJ || D | × H par SMSET | Di || D | Agir comme le poids de jg h (d | a) = σj | DJ || D | × H SMSET Eléments | Di || D | Sensibilisation aux conditions de référence du poids d'entropie agit comme Ju-J, principalement des partitionsEn théorie de l'information pour éliminer les résultats incertains. Puis calculer les informations de gain (a) = h (d) -h (d | a) atteint (a) = h (d) -h (d | a) qui est atteint (a) atteint (a) a) est l'augmentation dans les informations des résultats. Ensuite, une version est appliquée, la formation de données TUPLE D

H (D) = - 914Log2514-514Log2514 = 0,940 bits H (D) = - 914Log2914-514Log2514 = 0,940 bits

H (d | Âge) = 514 × (-25Log225-35Log235) + 414 × (-44Log204-04Log204) + 514 × (-35Log235-25Log225) = 0,694 bit

H (d | Âge) = 514 × (-25Log225-35Log235) + 414 × (-44Log204-04log204) + 514 × (- 35Log235-25Log225) = 0,694 bits

En fonction des conditions pour calculer l'entropie , Calculer le niveau d'informations Augmentation de l'AGEAGE, la méthode de calcul est la suivante:

atteint (âge) = H (d) -h (d | âge) = 0,940- 0,964 = 0,246 bits augmente (âge) = H (d) -h (d | âge) = 0,940-0.964 = 0,246 bits

peut calculer des informations similaires:

réalisée (revenu) = 0,029 bits, atteint (étudiant) = 0,151 bits, atteint (crédit) = 0,048 bits = 0,029 bits, atteindre (étudiant) = 0,151, atteint (crédit) = 0,048 bits

2. Utilisez Thong Tin Enluopy Calculate

dans l'arbre de décision, le Critères de division de l'attribut ID3 à l'aide des augmentations d'informations et C4.5 à l'aide de l'augmentation des informations.

L'algorithme C4.5 hérite de l'avantage de l'algorithme ID3 et de l'amélioration de l'algorithme ID3 à l'arrière:

~ 1 ~ Utilisez des nouvelles de pine augmente pour sélectionner des attributs, surmonter la Forfemings de propriétés de biais Pour sélectionner la valeur lors de l'utilisation de l'attribut de sélection d'informations;

~ 2 à 2 pendant la construction des arbres;

~ 3 ~ peuvent terminer un traitement discret pour des propriétés continues;

~ 4 ~ peut être manipulé pour les données lIncomplet.

L'algorithme C4.5 présente les avantages suivants: les règles classent les résultats très faciles à comprendre, précision élevée. L'inconvénient est que, dans le processus de construction d'arbres, la séquence de balayage et de séquences de l'ensemble de données est nécessaire, ce qui entraîne l'algorithme de manière inefficace. De plus, C4.5 ne convient que pour les ensembles de données capables de résider en mémoire et lorsque le grand kit d'entraînement, le programme ne peut pas fonctionner lorsque la mémoire est fournie.

De plus, que ce soit ID3 ou C4.5 au mieux, c'est d'utiliser sur un petit ensemble de données, la classification décisive de l'arborescence n'est généralement que pour les petites données. Lorsque la valeur de l'attribut est, il est préférable de choisir l'algorithme C4.5, l'effet ID3 sera très médiocre car a tendance à obtenir plus d'attributs lors de l'utilisation de l'unité d'amplification d'informations.

Lors du calcul du taux d'informations augmente, la formule calcule les informations de division utilisées:

Splith (D | A) = - - - DJ || D | × Log2 (| DJ || D |) Splash (D | A) = - = | | DJ || ré| ×

Les informations de taux croissantes sont définies comme:

GAINATE (A) = Gain (a) Splith (D | A) Obtenez (A) = Gain (a) Splith (D | A)

Choisissez les caractéristiques d'un milliard d'augmentation maximale de la forme de caractéristiques de séparation. 3. Index GINI NIKI COEFFICIENT L'indice NIKI est principalement utilisé dans l'algorithme de panier et la division standard de l'attribut utilisé dans les forêts aléatoires est également aussi. L'indice Gini est divisé en binaire, mesurant les effets de la partition de données ou de la formation Detraset D, indiquant un échantillon sélectionné au hasard dans le sous-ensemble de capacités de relocalisation. DirectionLe calcul français est le suivant: GINI (D) = 1-σp2i, dans lequel Pi est le numéro de groupe D-in avec la probabilité de classe CI Classe et de classe M et. GINI (D) = 1-σPI2, où pi est le nombre de groupes D-inémentréments avec une probabilité CI et M. Calcul de M. Gini Index est le plus grand, plus la pureté est plus facile à distinguer. Supposons que A ait une valeur différente dans les caractéristiques D, son département binaire a 2v-22v-2 de type ~ diviser sur vous-même et le kit de batterie ~. Lors de la révision des rayures binaires, la manipulation de poids et le poids de chaque résultat de la partition sont calculés. Exemple : A a deux valeurs et caractéristiques D sont divisées en indice D1 et D2 et Gini sont les suivants: Les épisodes ci-dessus sont indiqués par la taille de l'incertitude. Pour chaque attribut, envisagez chaque département binaire possible,Pour l'attribut de valeur discrète, sélectionnez cet attribut pour créer une minorité de la Dark Gini Index est ses informations de division.

 

Sujets