1, pasteur - Modèle de village
K-Véhicules ont une explication célèbre: pasteur - Model Village:
Il y a quatre pasteurs qui est allé subventanément à la banlieue. Au début, les pasteurs arbitraires ont choisi quelques grands points et ont déclaré la situation de ces armoires pour tous les villageois de la banlieue. Tous les villageois sont venus en classe. Après l'école, tout le monde se sent trop loin, chaque pasteur compte tous les habitants de tous les villageois de leur classe, a déménagé au centre de toutes les adresses et met à jour leurs propres positions sur l'affiche. Tous les mouvements de pasteur ne seront pas proches de tout le monde. Certaines personnes trouvent que je ne serai pas aussi bon que le prêtre, tous les villageois sont allés à la courte réunion la plus proche... Comme cela, le prêtre met à jour sa position chaque semaine et les villageois ont choisi de grands points selon leur propre situation et finalement stables.
Nous pouvons voir que le pasteur est de rendre chaque villageois au point le plus proche et minimum.2, l'étape d'algorithme
pour étamer l'algorithme du k-moyen est la suivante:
Sélection de K K est initialement créée comme centre de cluster d'origine;Calculez chaque échantillon dans le jeu de données. à la distance du Centre K et la diviser en une classe correspondant au centre de cluster minimum;
Rappelez-vous son centre de cluster pour chaque catégorie (c.-à-d. Tous les échantillons appartiennent à cette classe) Centre);
Répétez 2 3 étapes jusqu'à une certaine condition d'annulation (nombre d'itérations, variations d'erreur minimale, V.V.).
3, complexité
Regardez le faux code:
Complexité du niveau :, dans lequel T itération, k est le nombre de grappes, n est le numéro d'échantillon, M est la taille de l'échantillon.
Complexité spatiale :, cas K est le nombre de grappes, m est la taille de l'échantillon, n est le score d'échantillon.
Avantages et inconvénients
1 Lorsque l'ensemble de données, l'algorithme assure une meilleure évolutivité;
Lorsque le cluster est distribué autour de Gaussien, l'effet est très bon; L'algorithme a une faible complexité.
2, pourtantc
K nécessite une installation artificielle, des résultats de la valeur différente sont différents;
sensible au centre du cluster d'origine, des résultats de sélection différents seront des résultats différents;
sensible à une valeur inhabituelle; cela ne peut être classé que comme une classe, non conforme aux tâches multi-catégoriques;
Non adapté à la classification de la marée discrète, à la classification des catégories d'échantillons, classification non convexe.Mardi, algorithme d'ajustement et d'amélioration
Pour les lacunes de l'algorithme K-Bouche, nous pouvons avoir de nombreux modes d'ajustement: tels que des données de prétraitement (supprimer des points inhabituels), choisissez des valeurs K,mappings de hauteur, etc. Ce qui suit sera une brève introduction:
1, Traitement des données
La nature du K-OB est basée sur l'algorithme de division de données de l'Europe, du support et de la variance de la variance, qui rendra le cluster de données pour déterminer les données. Affecter. Par conséquent, les données ne sont pas normalisées et des unitésG Le plus ne peut pas être directement lié au calcul et à la comparaison. Les méthodes de traitement populaires sont des normes de données courantes: normaliser les données, normaliser les données.
En outre, les données de points de saillie ou de bruit auront un impact important sur la moyenne, ce qui conduira à une indemnisation centrale, nous devons également détecter des données.
2 lois et méthodes statistiques.
lorsque K & LT; 3, la courbe est tombée rapidement. Quand k & gt; 3, la courbe a tendance à se stabiliser et nous croyons que les points 3 Abstinence sont la valeur optimale de K.
Les inconvénients des méthodes de coude sont des besoins d'automatisation non artificiels, car nous avons donc une méthode de statistiques de distance, cette méthode vient De certains érudits de l'Université de Stanford: estime le nombre de clusters dans une donnée définie par des statistiques d'écart
parmi elles, la fonction de perte est appelée ici. Cette valeur est généralement créée par la simulation de Monte Carlo et nous sommes sélectionnés au hasard dans la zone.Lorsque des échantillons sont produits de manière aléatoire et des échantillons aléatoires ont autant que le numéro de modèle d'origine et les échantillons aléatoires sont des moyens k-moyens pour en obtenir un. Tellement, généralement 20 fois, nous pouvons obtenir 20. L'approximation de ces 20 valeurs est obtenue. Enfin, il peut calculer Gap statisitc. K est le meilleur de la valeur maximale de l'acquisition de statistiques GAP.
Comme on peut le voir sur la photo, lorsque k = 3, la distance (k) est la plus grande, la meilleure cluster est K = 3.
GitHub s'appelle Gap_Static, qui peut facilement obtenir plus de numéros de cluster de classe proposés.3, K-Moyens basé sur la distance européenne sert des données de chaque groupe de données avec la même probabilité préalable et présente une distribution sphérique, mais cette distribution est vraiment rare dans le match vivant. Face à une forme de distribution de données non convexe, nous pouvons introduire la fonction nucléaire pour l'optimiser et que l'algorithme est également appelé le k-algorithme signifie nucléaire, un phonG de grappes françaises. L'idée principale de la méthode de clustering nucléaire consiste à cartographier les points de données dans l'espace de saisie dans des espaces de fonctionnalités élevés et en grappes dans de nouvelles fonctionnalités. Le mappage non linéaire augmente la probabilité linéaire des points de données, de sorte que lorsque l'algorithme de cluster classique a expiré, l'introduction de fonctions nucléaires peut obtenir des résultats de clustering plus précis.
4, K-Signification ++Nous savons que les résultats de la valeur initiale ont un impact important sur les résultats et l'amélioration de l'option de valeur initiale est une partie importante. Dans tous les algorithmes améliorés, le plus célèbre K-Autre ++.
K-qui signifie ++ étapes comme suit:
Sélectionnez un point central.
Calculez la distance entre le Centre de cluster précédent N et choisissez un nouveau point central à une certaine probabilité;Répétez la deuxième étape.
Simple, K-Moyens ++ est le point où le point le plus éloigné du centre choisi. Ceci convient également à des conditions habituelles et moyennesLe son du cluster est bien sûr plus loin que l'autre.
Cependant, les inconvénients de cet algorithme sont très difficiles à parallèles. Par conséquent, K-signifie que ii modifie la stratégie d'échantillonnage, non conforme à la K-OFE ++, seuls des échantillons sont déplacés à chaque fois, mais la répétition du processus échantillonné à chaque fois, puis répétez le processus d'échantillonnage, puis prenez une collection de Exemple de points, puis des options du point. Bien sûr, il n'a généralement pas besoin de prendre des échantillons, 5 fois.5, Isodata
Le nom complet de l'isodata est une méthode d'analyse de données autonome répétitive. Il résout la valeur de K pour identifier ces lacunes. Une fois de taille élevée, de grands ensembles de données, les personnes ont tendance à estimer la taille exacte de K. Isodata a amélioré ce problème. Son idée est également intuitive: ce catalogue est supprimé lorsqu'il appartient à un certain nombre d'échantillons. Ce type est divisé en deux types supplémentaires lorsqu'un niveau important.
Premier considérer l'étape parProjet K-OFE: Sélectionnez d'abord le bouton d'origine, puis calculez le catalogue de chaque échantillon, puis passe le type de passage que le nouveau bouton d'initialisation. Ce processus n'a aucun algorithme introduit auparavant.
Nous devons savoir que l'algorithme répétitif du groupe K signifie en réalité un algorithme d'enfants. L'algorithme Je résolvez l'estimation des paramètres dans le modèle de probabilité dans le cas où les variables implicites ne peuvent pas être observées. Le volume de vibration dans K-MOULER est le catalogue de chaque type. Chaque point central confirme dans le K-ce que signifie répéter le k-algorithme sera ré-attaché dans l'algorithme EM dans les conditions de paramètre de courant dans les conditions de paramètre actuelles. Les paramètres correspondants correspondent à l'étape m (la fonction minimale lorsque l'étape m "dans l'algorithme est maximisée selon l'algorithme MLA.
Voir la forme de la fonction perdue:
pour rechercher une valeur extrême, Nous effectuons une fonction de perte pour dévier et égal à 0:
K fait référence aux troisièmes points, donc cBéni:
On peut voir que le nouveau centre de centre est tous les centres de toutes les classes comme celle-là.
Les inconvénients de mon algorithme sont faciles à tomber dans la valeur minimale locale, ce qui est également la raison pour laquelle K-moyens parfois obtenus des solutions optimales locales.
Cinq, se réfèrent à
"Machine d'apprentissage" ZhihuaK-MODES Notes (3)
Comment choisir K-Signification?