Skip to main content

1, C4.5

C4.5, est un algorithme d'arbres décisifs classé dans l'algorithme de la machine, qui est un arbre décisif (arbre décisif est également détenu comme une décision extérieure. Les arbres, en fait, Une partie de l'algorithme de ligne de prose ID3 améliore l'algorithme, il comprend donc essentiellement que la moitié de la méthode de la construction d'arbres de décision peut le construire. En supposant que ce soit une bonne fonctionnalité et des points de division Chaque fois que vous sélectionnez une condition de classification pour le bouton actuel.


C4.5 est comparé à l'amélioration de l'ID3,

1. Sélectionnez Attributs avec des augmentations d'informations. ID3 Sélectionnez l'attribut de sous-arbitre dans l'augmentation des informations de sous-cours, dans laquelle de nombreuses méthodes Peut être identifié, ID3 utilise entropie (entropie, entropie est une donnée non site), qui est la valeur de changement d'entropie. et C4.5 utilisé est le taux d'information. La différence est l'une des informations qui permet d'obtenir des informations, une différence est le taux d'augmentation de taux d'incidence. En général, ce taux est utiliséUtiliser pour équilibrer, comme le rôle des différences, tels que deux personnes exécutées, un point de départ est de 10 m / s, 10 secondes est de 20 m / s; Une autre personne commence la vitesse de 1m / s, qui est 2m / s après 1 seconde. Si la différence est deux grandes lacunes, si la vitesse augmente la vitesse (accélération, elle est, 1m / s ^ 2), 2 personnes ont la même capacité à accélérer. Par conséquent, C4.5 surmonte les lacunes des propriétés polarisées pour sélectionner la valeur lorsque ID3 est sélectionné par l'attribut de sélection d'informations.

2. Dans le processus de construction d'arbres, lors de la construction d'un arbre de décision, des boutons suspendus à plusieurs éléments, ne considèrent pas le meilleur, sinon il est facile de causer une excès excessive.

3. Il peut également être traité pour des données non discrètes.

4. La possibilité de gérer des données incomplètes.

Deuxièmement, le k-algorithme signifie que l'algorithme k-désigne l'algorithme

k-signifie algorithme d'algorithme est un algorithme de clustering, des objets de n sont divisés en fonction de leurs propriétés pour la division K ( K & lt;n). Il est très similaire à l'algorithme maximum d'attente (article 5 de ces dix algorithmes de Top) Manipulation de la distribution mixte normale, car elles essaient tous de trouver un centre de clustering naturel dans les données. Il suppose que les propriétés d'objet proviennent de vecteurs d'espace et de cibles sont de minimiser le total moyen moyen de chaque groupe.

Mardi, support de vecteur de support

Support vectoriel Machine, English est une machine de support de machine vecteur, appelée machine SV (la théorie s'appelle SVM). C'est un moyen de surveiller l'apprentissage, largement utilisé dans l'analyse de régression statistique et l'analyse de la régression.


Les vecteurs prennent en charge la mappage de vitesses dans un espace de taille supérieure et ont une surface plane maximale dans cet espace. Il existe deux terrains plats super-plats et super séparés et super séparés sont optimisés des deux côtés de la surface des données séparées. En supposant que la distance ou la distance entre la surface parallèle est, le nombre total d'erreurs de la classificationG petit.

Les excellentes instructions sont manuelles pour identifier le "Guide de la machine de vecteur" C.J.JB BURges. Van der Walt et Barnard comparent le support vectoriel et d'autres catégories.

Quatre algorithme Apriori

L'algorithme Aporiori est un algorithme pour les règles de relations booléennes les plus touchées. Son noyau est un algorithme récursif basé sur des intersections à deux étages. La règle de cette association appartient à une seule classe, une classe de la ville booléenne. Ici, tout le soutien est supérieur au niveau minimum de support appelé articles réguliers, appelés intersections.

5. Algorithme d'attente maximale (EM)

Dans les calculs statistiques, l'algorithme maximum d'attente maximum recherche des modèles de probabilité (probabilité), l'algorithme d'estimation de la capacité maximale des paramètres, Dans lequel le modèle de probabilité dépend d'une variable cachée qui ne peut pas être observée. Les attentes maximales sont souvent utilisées dans le domaine des ensembles de données dans la machine apprentissage et NHSur l'ordinateur.


Vendredi, Pagerank
PageRank est une partie importante de l'algorithme Google. En septembre 2001, a reçu le brevet américain, un brevet comme une page Larry, l'un des fondateurs de Google. Par conséquent, la page de Pagerank ne fait pas référence au Web, mais à peler, ce qui signifie que ce niveau est nommé page. Pagerank mesure la valeur du site en fonction du nombre de sites Web et de qualité du site Web et du nombre interne de liens. Le concept de Pagerank est que chaque lien vers la page est un vote sur la page. Plus les liens sont liés, plus les gens choisissent d'autres sites Web.

Il s'agit du soi-disant "lien populaire" - combien de personnes sont disposées à connecter votre site Web et votre site Web. PageRank Ce concept conduit de la fréquence des documents cités - CEI Beaucoup de personnes citées par d'autres, plus l'autorité de cet article.


Sept, Adaboost
Adaboost est un tLa réputation répétée est une classification différente (tri faible) avec le même exercice d'entraîneur, puis plaçant cette faiblesse de classification pour créer une classification finale plus forte (classification forte). Son algorithme lui-même est mis en œuvre en modifiant la distribution de données, déterminant que le poids de chaque échantillon sur la base de la classification de chaque échantillon est correct et la précision de la classification globale finale. Le nouveau jeu de données de valeurs de poids modifiés est envoyé au prochain ensemble de classification pour la formation et enfin, chaque cours de formation est incorporé en tant que classification de décision finale.
Huit, Knn: Classification de la dernière voisine K
L'algorithme de classification du voisin le plus proche, KNN) est une méthode mature théorique. C'est aussi l'un des algorithmes les plus simples. Méthode KNN: Si un échantillon est en un seul type (ce qui signifie que le k le plus adjacent dans l'espace des fonctionnalités appartient à l'espace de caractères,Échantillons de ce genre.
Neuf, Naiad Bayes
Dans de nombreux modèles de classification, le modèle de classification le plus largement utilisé est un modèle d'arbre décisif (modèle d'arbre de décision) et MASU modèle Lee naive Bayesian, NBC). Les modèles de baies simples sont dérivés de la théorie mathématique classique, avec des plates-formes mathématiques solides, ainsi que de l'efficacité de la classification stable. Dans le même temps, les paramètres estimés requis du modèle NBC sont petits et l'algorithme est relativement simple. En théorie, le modèle NBC a le plus petit taux d'erreur par rapport aux autres méthodes de classification. Mais en fait, ce n'est pas toujours parce que le modèle NBC suppose que des attributs sont indépendants, cette hypothèse n'est généralement pas mise en place dans des applications pratiques, avec un certain impact sur le tabouret le type exact du modèle NBC. Lorsque le nombre d'attributs importants ou relativement relativement relativement relativement relativement relativement, les performances de la classification du modèle NBC sont inférieures au modèle d'arbre décisif. Lorsque l'attribut correspondant est petit, modèleNBC a la meilleure performance.
Dix, Panier d'achat: Tri et régression Arbres
Panier, classification et plantes de régression.Il y a deux idées principales sous la racine de classification: la première concerne la division de l'espace libre;La deuxième idée est d'utiliser des données de vérification pour marquer des points.

Sujets