Cet article a été incubé, une simple introduction pour ceux qui veulent comprendre la machine. Non liés aux principes avancés, parlez simplement de problèmes de vrais mondiaux et de solutions pratiques. Peu importe si vous êtes programmeur ou responsable, vous pouvez comprendre.
Après cela, commencez!
1. Pourquoi voulons-nous apprendre?
est actuellement Billy, Billy veut acheter une voiture, il souhaite calculer le montant à économiser chaque mois. Après avoir parcouru des dizaines de publicités sur Internet, il savait que le prix de la nouvelle voiture était d'environ 20 000 dollars américains. Le prix des voitures d'occasion utilisés pendant 1 an est de 1,80 000 $ et la voiture de 2 ans est de 18 000 dollars et ce type est poussé.
En tant qu'analyste intelligent, Billy a découvert une règle: le prix de la voiture dépend de l'âge et de tous les 1 000 dollars américains augmente, mais ne sera pas inférieur à 10 000 $.Le terme "régression" a été inventé par le terme "régression" - basé sur des données historiquesDéjà prédit une valeur (prix). Quand les gens essaient d'estimer le prix du vieil iPhone d'Ebay ou de la préparation de nervures en calculant une fête de barbecue, ils ont utilisé une méthode pour Billy - 200g? 500?
Oui, s'il y a une recette simple pour résoudre tous les problèmes mondiaux - en particulier pour une fête de barbecue - malheureusement, cela est impossible.
Revenons au cas d'achat d'une voiture, le problème est maintenant en dehors de l'âge du départ, ils ont également différents jours de production, des dizaines d'accessoires, des conditions techniques, des fluctuations des besoins saisonniers ... Tian Sait quels facteurs potentiels ... Les gens ordinaires Billy ne peuvent pas prendre en compte ces données lors du calcul des prix et je ne peux pas changer.
Les gens sont paresseux et stupides - nous avons besoin de robots pour les aider à faire des mathématiques. Par conséquent, nous utilisons ici la méthode informatique - fournissant des données pour la machine, de sorte qu'elle explore toutes les règles potentiellesCaractéristiques connexes.
Terminer ~ Restez ~ le voir. La chose la plus intéressante est que la machine traite beaucoup mieux que la personne qui analyse réellement tous les éléments dépendants.
De cette façon, apprendre la machine est né.Lundi, les trois composantes de la machine d'apprentissage de la machine
C'est toute la sagesse artificielle (AI) le seul objectif d'apprentissage basé sur des données d'entrée de machine à prédire les résultats, de sorte que . Toutes les tâches d'apprentissage de la machine peuvent être affichées de cette manière, sinon, à partir d'un démarrage, il n'est pas un problème d'apprentissage de la machine.
Différents échantillons, plus faciles à trouver le mode pertinent et les résultats obtenus. Par conséquent, nous avons besoin de trois parties pour former:
1, Data
veulent détecter le spam? Obtenez des échantillons de spam. Voulez-vous prédire les stocks? Trouver des informations historiques sur les prix. Vous voulez apprendre les préférences des utilisateurs? Analysez leurs enregistrements d'exploitation sur Facebook (pas, marque, arrêtez de collecter des données ~ il suffit). Plus de données, plus les résultats possiblest. Pour une machine désespérée, au moins des dizaines de milliers de données de biens peut suffire.
Il existe deux méthodes principales de récupérer les données manuellement ou automatiquement. Les données fabriquées à la main sont mélangées, mais il faut plus de temps - dépensez souvent plus. La méthode est relativement peu coûteuse, vous pouvez collecter toutes les données disponibles (j'espère que la qualité des données est bonne).
Certaines personnes comme Google utilisent leurs utilisateurs de les marquer gratuitement, rappelez-vous que reCAPTCHA (machine vérifiée à la machine) vous exécute pour "sélectionner tous les panneaux de signes"? Ils sont comme ça, ou ils travaillent toujours! Beau sec. Si je suis comme ça, je montrerai ces images de vérification plus souvent, mais attendrez ...
Bonnes données, il est difficile de trouver obtenez-le, ils sont très importants Lorsque certaines entreprises peuvent même ouvrir leurs propres algorithmes, mais ils publient rarement des ensembles de données.
2, caractéristiques
g peut être appelé "paramètre" ou "variable", telle que Kilomètre conduisant des voitures, des utilisateurs de genre, des cours de stock, des fréquences de documents, V.V. En d'autres termes, ce sont les facteurs que la machine doit être envisagée.
Si les données sont stockées sous forme de tableau, la fonction correspond au nom de la colonne, relativement simple. Mais si l'image du chat de 100 Go? Nous ne pouvons pas envisager chaque pixel comme caractéristique. C'est pourquoi choisir la fonctionnalité appropriée qui a généralement plus de temps que les autres étapes de la machine et le choix caractéristique est également la principale source d'erreurs. La tendance subjective de la nature humaine fera que les gens choisissent ce qu'ils aiment ou ressentent «plus important» - c'est à éviter.
3, algorithme
la partie la plus évidente. Toute question peut être résolue de différentes manières. La méthode que vous choisissez affectera la précision, la performance et la taille du modèle final. Besoin de noter: si la qualité des données est médiocre, même si le meilleur algorithme est utiliséUtiliser, ça n'aide rien. Ceci s'appelle "ordures, ordures" (Garbae in - ordures, gigo). Par conséquent, il devrait y avoir plus de données avant de placer beaucoup d'esprit en fonction du rapport exact.
Troisièmement, apprendre V.S. SMART
J'ai vu un article nommé "réseau neurologique pour remplacer la machine?" Sur certains sites de communication populaires. Ces médias exagérent toujours des techniques telles que la "sagesse artificielle", et elles sont appelées "Tianwang". La figure ci-dessous montre certaines relations entre des concepts de confusion faciles.
"Sagesse artificielle" est le nom de toute la discipline, semblable à la "biologie" ou "chimie".
"Machine d'apprentissage automatique" est une partie importante de "intelligence artificielle", mais pas la seule partie."Réseau nerveux" est une méthode de classification des machines d'apprentissage. Cette méthode est très courante, mais la machine a d'autres branches sous la famille.
"Apprentissage profond" est une approche moderne de la construction, du train et de l'utilisation des lignesJe neurologie. En substance, c'est une nouvelle architecture. Dans le fait actuel, personne ne distinguera profondément l'apprentissage et les "réseaux normaux" et la bibliothèque doit être appelée lors de leur utilisation. Ne vous laissez pas ressembler à un imbécile, vous devriez mieux parler directement avec un type de réseau spécifique et éviter d'utiliser des langues populaires.Le principe général est de comparer tout au même niveau. C'est pourquoi «les réseaux neurologiques remplaceront les roues« Son Like »remplaceront la voiture». Cher média, cela sera plié avec un gros nom.
Quatrième, la machine de mise en page mondiale
Si vous êtes trop paresseux pour lire le texte, l'image ci-dessous aide à sensibiliser.
Dans la machine d'apprentissage mondiale, la résolution de problèmes n'est jamais unique - souvenez-vous que cela est très important - car vous verrez toujours que certains algorithmes peuvent être utilisés pour résoudre le problème, vous devez choisir le plus approprié. une. EnfantsSeulement, tous les problèmes peuvent être traités avec des "réseaux de neurones", mais qui porte des coûts matériels forts?
Commençons par un contour de base. Actuellement, il y a quatre directions dans les machines d'apprentissage.
Partie 1
Mathématiques classiques
Les mathématiques classiques proviennent de statistiques pures dans les années 1950 tels que le mode de recherche de numéro, estimez la distance entre les points de données officiels et mathématiques de la direction vectorielle calculée.
Aujourd'hui, la moitié d'Internet étudie ces algorithmes. Lorsque vous voyez une liste "Continuer la lecture", ou lorsque vous trouvez votre carte bancaire verrouillée et que vous ne pouvez pas l'utiliser, il est probablement un petit gars.
La société de technologie à grande échelle est fidèle au réseau nerveux. La raison est évidente. Pour les grandes entreprises, une augmentation de 2% de précision signifie augmenter de 2 milliards de revenus. Mais le volume des affaires de la société n'est pas intéressépoids. J'ai entendu dire qu'un groupe a passé une année à élaborer un nouvel algorithme proposé pour ses sites Web de commerce électronique. Après cela, 99% de trafic sur le site proviennent des moteurs de recherche - les algorithmes qu'ils apparaissent sont inutiles, après tout, les utilisateurs n'ouvriront même pas la page d'accueil.
Bien que l'algorithme classique soit largement utilisé, le principe est très simple, vous pouvez facilement expliquer à l'écoute du tout-petit. Ils sont comme des mathématiques de base - nous utilisons tous les jours et ne le souhaitent même pas.
1, il existe un apprentissage de la surveillance
Les machines classiques d'apprentissage sont généralement divisées en deux catégories: surveillance et apprentissage sans surveillance.
Dans «Surveillance», il existe un «superviseur» ou «enseignant» pour fournir toutes les réponses à la machine pour soutenir l'apprentissage, tel qu'un chat ou un chien sur la photo. "Les enseignants" ont terminé la division des ensembles de données - sont étiquetés «chat» ou «chien»,La machine utilise ces échantillons de données pour apprendre, apprendre des chats ou des chiens chacun.
Aucun apprentissage de surveillance signifie que la machine complète la personne seule dans une pile d'images animales est la tâche. Les données ne sont pas étiquetées d'abord, ni des "enseignants", la machine doit apprendre tous les échantillons possibles. Ces choses sont discutées plus tard.
Évidemment "Les enseignants" jouent plus vite, il y a donc beaucoup de choses qui sont souvent utilisées dans la vie réelle. Il existe deux types:
Classification, prédisant des catégories d'un objet;La régression prédit un point spécifique de la majorité des axes;
(1) Classification
"Sur la base des attributs Avant connus, les objets sont classés, par exemple, couleur, chaussettes de classification dans la langue, le style, le style".
L'algorithme de classe est couramment utilisé dans:
Détection de spam;
Détection de la langue;Trouver des documents similaires;
minusculeSentir chDétermination de l'écriture manuscrite ou du nombre
Algorithme général:
Bayes naïf
Arbre décisifLogistique de régression
K Voisins les plus proches (K-voisins )Soutenir la machine de vecteur
Les machines d'apprentissage résolvent principalement la classification des personnes de Viking. Cette machine est comme un bébé classée avec des jouets d'apprentissage: c'est "robot", c'est "voiture", c'est "moto" ... l'argent, l'attente, l'erreur! Erreur, fausse, trompeuse!
Dans les tâches de classification, vous avez besoin d'un "enseignant". Les données nécessitent une pré-étiquetage, de sorte que les machines puissent apprendre à classer en fonction de ces étiquettes. Tout peut être classé - en fonction des intérêts des utilisateurs, basé sur la langue et les thèmes classés pour les messages (ceci est très important pour les moteurs de recherche), basé sur toutes les types de classification musicale (Playlist Spotify), votre courrier électronique ne fait pas exception.
Un algorithme simple Bayes est utiliség largement dans le filtre anti-spam. Les statistiques du "Viagra" comme "viagra" apparaissent dans le spam et le courrier électronique normal, puis prenez l'équation de Bayes pour obtenir la probabilité, puis demander des résultats - ha, la machine complétera l'étude.
Après cela, les fabricants de spam ont appris à gérer le filtre Bayesia - Ajout de nombreux "bons" derrière le contenu du message à partir de: cette méthode est satirise comme " Empoisonnement bayésien). Comme l'algorithme le plus élégant et le premier pratique, il est chargé dans l'histoire, mais il existe d'autres algorithmes pour gérer la filtration de spam.
]
Un exemple d'algorithmes de classification.
Si vous devez emprunter une somme d'argent maintenant, comment la banque sache-t-elle si vous reviendrez à l'avenir? Pas sûr. Mais les banques ont de nombreux emprunteurs historiques, ils ont des données telles que «âge», «niveau d'éducation» "," Occupation "," Paiement "et -" Bien que cela paie toujours. "Avec ces données, nous pouvons former la machine à trouver cEn même temps et donner la réponse. Trouver des réponses n'est pas un problème, le problème est que la banque ne peut pas répondre aveuglément donné par la machine Machine. Si le système échoue, les diplômés ont atteint des pirates informatiques ou de grand pour jouer un patch d'urgence, que dois-je faire?
Pour gérer cette question, nous devons utiliser des arbres de décision, toutes les données sont automatiquement divisées en "oui / non" questions - telles que "Le prêt de revenu populaire dépasse 128,12 dollars?" - Cela semble légèrement contre l'humanité. Cependant, le problème est que le problème est de diviser des données optimales à chaque étape.
"Les arbres" sont produits. Plus la branche est élevée (près du bouton d'origine), le problème plus large. Tous les analystes peuvent accepter cette approche et donner l'explication ultérieure, même s'il n'est pas clair, il peut facilement expliquer (des analystes typiques)!
L'arbre de décision est largement utilisé dans des responsabilités élevées: diagnostic, médicaments et secteurs financiers.
Deux décisions les plus connues sont des paniers et C4.5.
Aujourd'hui, utilisez rarement des algorithmes d'arbres de décision pure. Cependant, ils constituent le fondement de grands systèmes et effets après que l'arbre de décision est encore meilleur que les réseaux nerveux. Cela le dira ensuite plus tard.Lorsque vous recherchez sur Google, c'est une pile «arbre» maladroite pour vous aider à trouver des réponses. Les moteurs de recherche comme cet algorithme parce qu'ils courent assez vite.
Selon la raison, le vecteur de support (SVM) doit être la méthode de classification la plus courante. Tant qu'il existe, il peut être classé: classement des usines sur la photo, classée par catégorie, V.V.
L'idée derrière SVM est très simple - il essaie de dessiner deux lignes entre des points de données et de maximiser la distance entre deux lignes. Comme indiqué ci-dessous:
L'algorithme de classification a une scène très utile - une détection inhabituelle, si une caractéristique ne peut pas être associéen Ajouter à toutes les catégories, nous l'envoyons. Cette méthode a été utilisée dans les secteurs de la santé - IRM (images de résonance magnétique) et calculer toutes les zones ou déviations suspectes dans la plage de détection. Le marché boursier l'utilise pour détecter un comportement inhabituel des commerçants pour trouver des fantômes à l'intérieur. Lorsque les ordinateurs de formation sont corrects, nous leur apprenons également automatiquement à déterminer ce qui ne va pas.
La règle du pouce indique que plus de données sont des algorithmes plus complexes. Pour le texte, les chiffres, les tables, je choisirai une méthode classique pour fonctionner. Ces modèles sont des vitesses d'apprentissage plus petites et plus rapides et des flux de travail plus clairs. Pour d'autres images complexes, vidéos et vidéos, j'étudierai certainement le réseau nerveux.
Il y a seulement 5 ans, vous pouvez trouver des classificateurs de visage basés sur SVM. Maintenant, un modèle est plus facile des centaines de modèles de réseau nerveux avant d'être formé. Cependant, les filtres anti-spamIl a changé, ils utilisent toujours SVM, il n'y a aucune raison de le changer. Même mon site Web est spam dans des commentaires basés sur SVM.
(2) Régression
"Dessine une ligne à travers ces points, euh ~ Ceci est une machine d'apprentissage"
.
L'algorithme de références est actuellement utilisé dans:
Prévision des prix des actionsNombre d'analyses d'approvisionnement et de vente
Diagnostics médicauxCalcul de la Société Série de calcul
L'algorithme de régression populaire est la suivante:
Régression linéaire
Régression polynomiale"Rappelle" essentiellement des maths "classification", mais la prédiction n'est pas un catalogue qui est une valeur. Par exemple, à Kilage pour prédire le prix du véhicule, estimer le volume de la circulation de différentes périodes en une journée et prévoir l'augmentation du développement de la société. Lors du traitement et des droits liés au temps, l'algorithme de régression peut être décrit comme ne pas sélectionner.
ALGORITHMLa régression a été privilégiée par les praticiens financiers ou analyses les praticiens de l'industrie. Il est même devenu une fonction intégrée d'Excel, l'ensemble du processus était très lisse - la machine a simplement essayé de dessiner une ligne représentant la moyenne. Cependant, cela se fait différemment d'une personne qui détient un stylo et un tableau blanc, la machine est effectuée en calculant l'intervalle moyen de chaque point et le temps moyen de chaque point.
Si le tirage au sort est une ligne droite, la "régression linéaire", si la ligne est pliée, il s'agit de "régression polynomiale". Ce sont deux types de régression principale. D'autres types sont relativement rares. Ne soyez pas retourné par la logistique, ce "cheval toxique" a été trompé, c'est un algorithme classifié, pas de retour.
Cependant, il n'y a pas de problème si "retour" et "classification" est mélangé. Certaines catégories ajustent les paramètres à revenir. En plus d'identifier les objets, combien vous devriez vous rappeler, cela conduira au problèmerégression.
Si vous voulez apprendre profondément, vous pouvez lire l'article "Écrire une machine d'apprentissage de la machine" [1] (recommandation forte).
2 algorithmes relativement relativement relativement relatifs, parfois c'est juste parce que vous ne les avez pas sélectionnés.
Les données marquées sont très luxueuses. Supposons maintenant que je veux créer un - par exemple: "Classification de bus", puis je dois faire une photo pour prendre une photo de centaines de milliers de mères bus, puis il y a ces images marquées par une seule? Sans la porte, cela passera toute ma vie, j'ai beaucoup de jeux sur Steam, je n'ai pas joué.
Dans ce cas, il est toujours nécessaire de sauter beaucoup au capitalisme. Grâce à un mécanisme de préparation sociale, nous pouvons obtenir des millions de travailleurs et de services bon marché. Par exemple, Turk mécanique [2], derrière un groupe est prêt à recevoir 0,05 dollars d'argent de travail pour vous aider à mener à bien la mission. Tout se fait généralement comme ça.
De plus, vous pouvez essayer d'utiliser un apprentissage non vertéré.Mais dans l'impression, je ne me souviens de rien à ce sujet. Aucun apprentissage de surveillance n'est souvent utilisé pour analyser les données d'exploration, au lieu de suivre l'algorithme principal. Les personnes atteintes d'Oxford et d'entraînement spécial ont nourri de nombreuses ordures pour la machine et commencent à observer: y a-t-il un groupe? ne sont pas. Pouvez-vous voir un contact? ne sont pas. Ok, nous voulons toujours travailler dans la science des données, non?
(1) Cluster
"La machine sélectionne le meilleur moyen, en fonction de certaines fonctionnalités inconnues, de la séparation de tout"
L'algorithme en cluster est actuellement utilisé dans:
Segmentation du marché (Type de clientèle, Fidélité)Carte de consolidation adjacente Analyse
Nouvelle analyse d'étiquetage de donnéesDétection de comportement inhabituel
Algorithme général:
K grappe moyenMOYENNE MOYENNE
] DBSCANLes clusters sont classés dans la prémisse des types d'étiquettes précédents. Comme tu ne peux pas nhcouleur de toutes les chaussettes. Vous pouvez classer des chaussettes. Algorithmes de cluster Essayez d'identifier des choses similaires (en fonction de certaines fonctionnalités), puis de collecter leurs grappes. Les objets avec de nombreuses caractéristiques similaires sont rassemblés et divisés en même type. Certains algorithmes soutiennent même le score de données exact dans chaque cluster.
Un exemple typique d'un groupe exemplaire est d'avoir un marqueur sur la carte en ligne. Lorsque vous recherchez des restaurants végétariens environnants, les moteurs en clustering les regrouperont et leur montreront des chiffres. Si vous ne le faites pas, le navigateur collera - car il essaie de tirer les 300 niveaux de consommation dans cette ville de mode sur la carte.
Les photos Apple et Google Photos sont des grappes plus complexes. Créez l'album d'un ami en recherchant des visages dans les photos. L'application ne sait pas combien d'amis vous avez et leurs longueurs, mais vous pouvez toujours trouver une fonction de visage courante. C'estUn cluster régulier.
Un autre script d'application populaire compresse des images. Lorsque l'image est enregistrée sous forme de format PNG, la couleur peut être réglée sur 32 couleurs. Cela signifie que l'algorithme en cluster veut trouver tous les pixels "rouges", puis calculer "le rouge moyen", puis attribuer ce sens à tous les points de pixel en rouge. Moins de couleurs, de fichiers plus petits - économies de coûts!
Cependant, il est gênant lorsque vous rencontrez une couleur comme le bleu vert. Est-ce vert ou bleu? L'algorithme K-sens est nécessaire pour le moment.
Sélectionnez d'abord 32 points de couleur de la couleur sous forme de «cluster de coeur», et les points restants sont marqués dans le cluster le plus proche. De cette façon, nous avons un "groupe d'étoiles" environ 32 points de couleur. Après cela, nous déplaçons le cluster jusqu'au centre du groupe Star, puis répétez les étapes ci-dessus, sachant que le cluster ne bouge plus.
terminé. Pointez sur 32 grappes stables.
Pour que tout le monde ait voir un exempleDans la vie réelle:
Cette recherche en clustering est très pratique pour des méthodes, mais les grappes en pratique ne sont pas toujours rondes. Si vous êtes un géologue, vous devez trouver des minerais similaires sur la carte. Dans ce cas, la forme du cluster sera très étrange, même imbriquée. Même tu ne sais pas combien de clusters auront, 10? 100?
K-ALGORITHM signifie ne pas être utilisé ici, mais l'algorithme de DBSCAN est utilisé. Nous utilisons des personnes sur la place pour trouver 3 personnes ensemble. S'il vous plaît gérer votre main. Ensuite, dites-leur d'attraper les voisins qui peuvent accéder à la droite (position debout de l'ensemble du processus sans bouger), répétez cette étape jusqu'à ce que les nouveaux voisins participent. De cette manière, nous recevons le premier cluster, répéter le processus ci-dessus jusqu'à ce que tout le monde soit attribué aux clusters et cela fonctionne.
Une récolte inattendue: une personne qui maintient des mains - un point de données inhabituel.
L'ensemble du processus a l'air cool.
intéressés à continuer à comprendre des algorithmes en clusters? Vous pouvez lire cet article "5 algorithmes en clusterisés pour savoir" [3] comme des algorithmes de classification, des grappins peuvent être utilisés pour détecter inhabituel. Existe-t-il une activité inhabituelle après l'enregistrement de l'utilisateur? Laissez la machine désactiver temporairement votre compte et créer des ordres d'emploi pour vérifier le personnel d'assistance technique. Peut-être que l'autre est un "robot". Nous ne savons même pas ce que "comportement normal" est, il suffit de transférer des données comportementales de l'utilisateur sur le modèle, laissez la machine déterminer si l'autre partie est "typique" utilisateur.
Bien que l'effet ne soit pas aussi bon que l'algorithme de classification, il vaut toujours la peine d'être essayé.
(2) Réduire la taille
Les groupes de fonctions spécifiques sont remplis d'une fonctionnalité avancée
L'algorithme "spécifié" est actuellement utilisé dans: SystèmeMini proposé
Belle visualisation
Modélisation du thème et trouve des documents similairesMaps altérés
Gestion des risques"Algorithme nommé" Général général:
Analyse principale des composants, PCA)
Détruire une valeur unique, SVD)Allocation de Dirichlet cachée, LDA ( Potentiel Analyse sémantique, LSA, PLSA, GLSA,
T-SNE (dans les premières années, Les scientifiques de données "durs" utiliseront ces méthodes, ils sont déterminés à examiner de nombreuses choses intéressantes des Vikings en beaucoup de chiffres. Lorsque le tableau Excel ne fonctionne pas, ils ont forcé l'appareil à rechercher le régime. Par conséquent, ils ont inventé réduire la taille des caractéristiques.
Projection des données 2D en linéaire (PCA)
pour les personnes, impliquant une grande Tas de caractéristiques de la fragmentation des caractéristiques, concept abstrait plus pratique. Par exemple, nous combinons un concept abstrait de "Shepherd" avec une oreilleTriangles, nez long et chiens de grande queue. Comparé à des chiens de berger spécifiques, nous avons perdu des informations, mais de nouveaux concepts abstraits sont plus utiles pour les scènes de nom et d'expliquer. En tant que récompense, de tels modèles «Abstract» ont une classe plus rapide et le nombre de fonctionnalités utilisées dans moins de formation, et a également diminué.
Ces algorithmes peuvent être importants dans la tâche "Modèle de thème". Nous pouvons résumer leur signification d'une phrase spécifique. L'analyse sémantique potentielle (LSA) est de participer à ce problème, LSA repose sur la fréquence de mots spécifiques que vous pouvez voir sur un sujet. Par exemple, les techniques liées à des articles scientifiques et technologiques sont plus sûres ou la plupart des politiciens ont émergé dans des nouvelles liées à la politique, telles que celles-ci.
Nous pouvons créer un cluster directement à partir de toutes les mots de tous les messages, mais vous perdrez toutes les connexions importantes (par exemple.DAMN signifie la batterie et l'accumulation dans différents postes). Oui, LSA peut gérer ce problème Oui, il sera donc appelé "Potentiel sémantique).
Par conséquent, il est nécessaire de combiner les mots et de connecter des documents dans une caractéristique, maintenant des liens potentiels - tout le monde a découvert un Décomposition à valeur unique (SVD) pour résoudre ce problème. Les grappes de sujet utiles sont très faciles à voir de la phrase collectée.
Le système est proposé et le système reconstitué est l'école de Autres algorithmes de réduction haute fréquence. Si vous l'utilisez depuis le score de l'utilisateur, vous recevrez un excellent système pour introduire des films, de la musique, des jeux ou tout ce que vous voulez.
Ici, je recommande un livre "Programmation intelligente Collective "est un oreiller de notre ère du collège.
Pour comprendre l'abstraction de cette machine, vous pouvez observer certaines corrélations: des concepts de moutons Statues et des utilisateurs d'âge - Les enfants jouent" alorsDans mes "ou regarder plus de programmes d'animation, d'autres programmes peuvent impliquer des styles de films ou des préférences de l'utilisateur.
Seules les informations comme utilisateurs classés, la machine peut trouver ces concepts de haut niveau et ne pas faire Même les comprendre. Beau sèche, M. PC. Maintenant, nous pouvons écrire un article sur "Pourquoi les armes d'armes comme de petits chevaux mon".
(3) Apprendre la loi de l'association
] "Trouver mode en ordre"
. , " Les règles "sont actuellement utilisées dans: remises et réductions pour prédire Analyse des produits" Acheter " Planification d'affichages Analyser le mode de navigation Web [ Algorithme général: Apriori Euclat FP Croissance L'utilisation pour analyser le chariot, les stratégies de marketing automatiques et les algorithmes de tâches liées à d'autres événements sont ici. Si vous voulez Pour trouver un mode deUne partie de l'article, essayez-les. Par exemple, un client a pris l'un des bières en bouteilles à payer. Devrions-nous mettre des cacahuètes sur la ligne de test? Que font les gens qui achètent de la bière et des cacahuètes? Oui, les règles de l'association sont susceptibles de s'appliquer aux situations de bière et de cacahuète, mais que pouvons-nous l'utiliser pour prédire la séquence? Pouvez-vous gagner beaucoup de profits dans la mise en page du produit? Cette idée est également appliquée au commerce électronique, où la tâche est plus intéressante - que vont acheter la prochaine fois? Je ne sais pas si j'ai appris beaucoup de machines d'apprentissage. La méthode classique consiste à utiliser des méthodes d'arbres ou de collecte sur la base des biens achetés. L'algorithme ne peut que rechercher le mode de recherche, mais il ne peut ni copier doucement dans de nouveaux exemples. Dans le monde réel, chaque détaillant majeur a créé sa propre solution exclusive. Il ne vous apportera donc pas la révolution ici. NiveauLa technologie la plus élevée mentionnée ici est le système proposé.Cependant, je ne suis peut-être pas au courant de cette avancée sur cette question.Si vous avez quelque chose à partager, laissez-moi savoir dans les commentaires. ,