Le champ proposé est un autre papier classique, séparant le mécanisme d'attention en quelques minutes

Machines de coefficient d'attention: apprendre le poids de la fonctionnalité d'interaction grâce à l'optimisation du réseau d'optimisation basée sur le modèle FM. Si vous ne comprenez pas le modèle FM, vous pouvez examiner le contenu pertinent du modèle FM via les éléments suivants fournis.

FM est notre modèle familier, introduit deux secondes intersections, calculant tous les seconds rangs de l'intérieur vectoriel Le coefficient vient à atteindre le but de l'avancement. Mais FM a également un inconvénient, bien que nous ayons amélioré son efficacité grâce à un certain nombre de manières mathématiques, mais certaines questions n'ont pas été résolues. Par exemple, pour une fonctionnalité fixe, c'est comme des interférences d'interférence d'autres caractéristiques. Par exemple, toutes les seconde caractéristiques de liaison ne sont pas utiles, certaines plutôt que du bruit.

Dans cet article, nous optimisons le modèle FM en éliminant l'importance de différentes combinaisons de caractéristiques et nous appelons ce modèle FM AFM (personnel d'attention).

La caractéristique maximale est l'importance de la croix est prise par des réseaux neurologiques. Nous avons eu un test complet sur deux ensembles de données réels et les résultats des tests ont montré que l'AFM avait 8,6% de FM. Comparé à large et ampli; La croix profonde, la croix profonde, l'espace de paramètre AFM est plus petite et plus simple. Et l'auteur de papier fournit une adresse GitHubade faite par Tensorflow. Intéressé par le code source. Vous pouvez cliquer pour lire le texte d'origine.

Lundi, introduit

On sait que la surveillance de l'apprentissage a un grand taux de machines d'apprentissage et d'exploiter des données. La surveillance d'un certain nombre de niveaux peut être considérée comme une fonction d'apprentissage, permettant ainsi la sortie plus près de notre valeur réelle. Si la valeur que nous voulons est un point flottant, c'est le modèle de retour. Si c'est une catégorie, le modèle de classification est classé. En termes de recommandations, de la publicité en ligne et de la reconnaissance d'images, le modèle de surveillance a joué un rôle dans la lecture.

Lorsque nos caractéristiques sont principalement basées sur des catalogues, les informations croisées entre les fonctionnalités d'apprentissage du modèle deviendront très importantes. Donnez un exemple simple, comme deux caractéristiques différentes de notre carrière et de notre hiérarchie. L'occupation a du personnel bancaire et des ingénieurs, des niveaux, primaires et avancés. Parmi eux, le personnel de la banque principale devrait être inférieur aux ingénieurs principaux, tandis que les employés âgés sont plus élevés que les ingénieurs principaux. Il est difficile de prédire exactement si le modèle ne peut pas apprendre des informations croisées.

Exemples de modèle LR, le modèle LR est fondamentalement le résultat qui peut intégrer le poids de chaque variable. Qu'il s'agisse d'un personnel primaire ou de grande classe, d'ingénieurs et de banques, ces deux poids professionnels sont les mêmes. De toute évidence, cette fois, le modèle est difficile à prédire avec précision.

Pour examiner les informations croisées entre les fonctionnalités, une méthode courante consiste à introduire un nouveau vecteur de paramètre, vecteur inter-computing. Par exemple, Multi-T Modèle récursifChaqueh (PR), toutes ses caractéristiques croisées sont obtenues par apprentissage. Cependant, une telle conception a un problème relativement important, ce qui n'est aucun moyen d'apprendre une partie du poids des réunions de données clairsemées. Par exemple, s'il s'agit d'un cours de cours et de carrière d'un utilisateur, il est difficile de veiller à ce que le ministère de la Formation contienne une formation suffisante en formation.

La présence de modèle FM consiste à résoudre ce problème. Ce sera très familier, je ne dirai pas beaucoup. En bref, il est de fournir à chaque fonctionnalité pour un vecteur, lorsque deux fonctionnalités transversales, montrant le poids de leurs caractéristiques croisées en calculant la masse de leurs vecteurs. En raison de cette conception créative, FM a obtenu un grand succès et dispose d'une application dans le système recommandé et PNL. Mais le modèle FM a toujours une brièveté. Par exemple, dans le monde réel, différentes caractéristiques ont souvent des effets différents, pas toutes les caractéristiques qui conviennent à des intersections spécifiques. Tellement graveT Une idée améliorée est de réduire efficacement les races des peines et automatiquement d'augmenter ou de damner différentes caractéristiques croisées.

Dans cet article, nous améliorerons l'effet FM de différentes manières en fonction de la combinaison de fonctionnalités et de la manière de gérer cela est le mécanisme d'introduction d'un réseau neurologique faisant attention.
MARDI, FM
Détails du modèle FM que nous avons écrit plusieurs fois, cela n'est plus répété, les petits partenaires doivent envisager de prendre en compte les détails de FM sont conservés.
Quatre, AFM
Entrez directement une règle directe AFM directement ici.
Modèle
L'écran est la structure du modèle AFM, pour faciliter la visualisation, nous retirons une partie de la régression linéaire.
La couche d'entrée et la couche embarquée correspondaient au modèle FM et son entrée montrait peu, modifiant d'autres modifications sans vecteur de bouée. Ensuite, nous allons expliquer plus à ce sujet, classeL'interaction de couple est l'intersection des caractéristiques bidirectionnelles et des grades brutes basées sur l'attention, qui est le contenu principal de cet article.
Bref classe interactive

sur la base de l'attention

L'apprentissage
a été favorisé directement sur L'expression de données par rapport à FM, elle peut donc être utilisée dans des scripts autres qu'une série de problèmes prédictifs. Comme la régression, la classification et la classification. Le problème du problème est différent et la fonction perdue est utilisée comme différente. Par exemple, pour des problèmes de régression, nous utilisons souvent des problèmes moyens carrés, deux problèmes de classification, nous utilisons des entropies croisées. Dans cet article, nous nous concentrons sur la régression et l'utilisation moyenne moyenne des objectifs d'optimisation des modèles.

Optimiser l'optimisation d'optimisation, nous utilisons des algorithmes de déroulement de gradient aléatoires (SGD) pour effectuer une formation de paramètres. SGD est l'une des méthodes optimisées qui sont largement utilisées.Les machines à étudier et sont également soutenues par des cadres profonds tels que Tensorflow, Pytorch, ce sera donc plus.

Précautions

V. Expériments

Les expériences ont répondu aux trois questions suivantes:

Comment le paramètre principal affecte-t-il la marque AFM (taux réduit et réseau d'attention du réseau )?

L'attention du réseau peut-elle apprendre l'importance de la croix croisée efficacement?

AFM et d'autres modèles avancés?

Réglages de test

Utilisé deux ensembles de données de revenus utilisés pour effectuer des expériences, respectivement, FRAPPE et MOVIELENS.

FRAPPE est utilisé pour faire des recommandations liées au contexte, y compris 96203 utilisateurs utilisés dans différents contextes. Il existe 8 variables contextuelles, qui sont des caractéristiques de classification, y compris la météo, la ville, le temps, le V.V. Nous gérons les caractéristiques via une chaude pour obtenir 5 382 fonctionnalités.

MOVIELENS, utilisé pour créer des étiquettes utilisateur, y comprisOh Card 668953. Nous traduisons chaque application de carte (ID utilisateur, film et carte) dans un vecteur d'histoire pour recevoir 90445 fonctionnalités.

Évaluation standard
Pour tous les ensembles de données, la valeur d'étiquette indique que les utilisateurs utilisent des applications dans des cartes contextuelles ou des cartes appliquées aux films .. Nous étiquetons les modèles négatifs de -1, obtenu 288609 et 2006859 échantillons sur les deux ensembles de données. Nous utiliserons 70% des modèles comme un ensemble de formation, un ministère de 20% de vérification et un kit de test de 10%.

Les échantillons du kit de vérification ne sont utilisés que pour déboguer les paramètres remplis et l'évaluation des tarifs via le kit de test. Nous utilisons RMSE (l'erreur de défaillance moyenne originale est l'indicateur de performance.

Nous comparons AFM et Libfm, Hofm, Wide & Amposs; Deep et Deepcross, et le meilleur débogage du travail par ces modèles. En plus du libfm, tout Les modèles sont formés via la méthode Adagrad de min-lot. La taille du lot de FRAPPE et MOVIELL est respectivement de 128 et 4096.Les inondations sont 256.

Nous avons débogué au large et à l'ampli; Taux de dropgross profond et utilisez et utilisez bientôt la méthode d'arrêt. Pour les modèles larges et amplis; Deep, Deepcross et AFM, nous constatons que l'effet de l'utilisation de vecteurs incorporés est mieux formé que la randomisation. Le débogage d'abandon est le suivant:

Étude sur l'ajustement des paramètres (Problème 1)

Dans le test, nous nous concentrons sur deux paramètres pour les performances du modèle, l'impact s'est concentré sur Des expériences, respectivement, des facteurs normaux et des facteurs d'attention, la taille de la classe d'attention de la classe cachée.

Tout d'abord, voir les résultats du débogage, il suffit de l'utiliser normalement, le débogage qu'il n'a aucun effet sur d'autres parties du modèle et tout le résultat est relativement précis.

Nous pouvons voir le nombre de ces deux copies selon la collection, nous avons une valeur appropriée pour apporter une certaine amélioration. Par rapport aux paramètres de débogage bApprendre, évidemment, l'impact est plus affecté.

Nous pouvons constater que le facteur d'attention a un très faible impact sur les résultats et les paramètres d'abandon des abandons. Ce n'est pas un objectif, l'accent est mis sur l'accent que ce facteur d'attention n'est pas une classe d'attention, car il sera parsemé de vecteurs embarqués. Par conséquent, il doit correspondre à des tailles incorporées. Cela signifie que dans cette expérience, l'effet n'est pas seulement un réseau d'artère, la taille intégrée est également une grande variable. Mais cet article n'est pas mentionné, je ne sais pas si c'est intentionnel.

L'impact de l'attention du réseau (question 2)
Cet article porte sur l'introduction du mécanisme d'attention entre FM, alors il y a des impacts sur l'attention du réseau?
La réponse est oui, nous pouvons également voir de l'image ci-dessus. Lorsque le facteur d'attention est 1, le modèle est toujours promu. À ce stade, le modèle décomposé dans le deuxième modèle de régression linéaire linéaire, mais en raison des paramètres de l'attention du réseau, l'effet est toujours bonFM Grace, peut illustrer le réseau d'attention efficace.

En outre, l'article a également démontré la convergence du processus de formation global.

De ce graphique, nous pouvons constater que l'effet de l'AFM est évidemment meilleur que FM, démontre également l'efficacité de la note de réseau.

En outre, l'article a également fait un travail de recherche supplémentaire. Premièrement, la sortie de l'attention de la sortie est fixée, la section FM est ensuite formée. Après cela, nous fixons la section FM, n'entraînons que les paramètres de l'attention du réseau. Lorsque la convergence et l'effet du modèle ont augmenté de 3%. Après cela, nous avons choisi des modèles de trois niveaux en mettant l'accent sur la mise au point, montrant les résultats des points d'attention et des points d'interaction comme suit:

Nous l'avons peut-être trouvé, pour FM, Il n'a pas de réseau d'attention, de sorte que toutes les interactions ont son poids, toutes sont de 0,33. L'AFM de l'attention du réseau est significativement plus élevée dans cette carte d'article. Et le résultat final est proche de 1.

Aucune description détaillée du papier ponctuel privéEffet ici, et ce doit être la formule de FM afin que ce soit.

Comparaison de la performance (verset 3)

Enfin, nous montrons les performances de chaque modèle dans le kit de test.

Parames dans lesquels Param est affiché comme le nombre de modèles. Nous pouvons voir que les paramètres d'échantillons d'AFM ne sont que multiples libfm, mais son RMSSE est le plus petit. Un effet de l'AFM est prouvé.

Six, terminé
ici, cet article AFM était terminé. Les points de base du journal mentionnaient cet article, il peut s'agir d'un peu partie de la section que je pense que rien de décrire ou d'expliquer. Si vous vous sentez confus, vous pouvez ou suggérez de lire le texte original. Cliquez ici pour voir https://github.com/hexiangn/ational_factorization_machine
Vous constaterez que même si vous lisez le texte original, vous aurez beaucoup de confusion ou de temps peu clair que nous devons spécifier Raisonnablement basé sur votre propre compréhension du modèle et du problème. Devinez plus, vous verrezVous allez lire de plus en plus doucement, c'est aussi une des possibilités.

J'espère que les gens peuvent prendre un peu de temps pour lire les articles, apprendre quelque chose.

Sujets

mécanisme.

Catégories

Apprentissage automatique