Skip to main content

"Machines sur la factorisation de l'attention: Apprendre le poids des interactions des fonctionnalités via des réseaux d'attention" Traduit "FM serré" avec le poids des caractéristiques d'apprentissage du réseau de l'attention ", il est conjointement apporté par l'Université de Zhejiang et l'Université nationale de Singapour en 2017, il est publié. Une optimisation basée sur le modèle FM. Si un camarade de classe qui ne comprend pas le modèle FM, vous pouvez examiner le contenu pertinent du modèle FM via les livres suivants.



FM est un modèle familier, qui introduit une croix croisée de second ordre, calcule tout par vecteur le facteur d'articles de second ordre atteint l'efficacité de l'efficacité de l'effet. Mais FM a également un inconvénient, même si nous avons amélioré son efficacité grâce à certaines manières mathématiques, mais certains problèmes n'ont pas été résolus. Par exemple, pour une fonctionnalité fixe, il est identique à celui de l'intersection des autres fonctionnalités. Par exemple, toutes les transactions de seconde commande ne sont pas utiles, certaines au lieu d'éléments d'interférence.

Dans cet article, nous optimisons le modèle FM en éliminant l'importance de différentes combinaisons de fonctionnalités et nous appelons ce nouveau modèle FM Model AFM (machine de factorisation attentionné).

Sa caractéristique maximale est que l'importance de la croix est obtenue par réseau neuronal de l'attention. Nous avons eu un test complet sur deux ensembles de données réels et les résultats du test montrent que l'AFM a 8,6% de la FM. Comparé au large et à l'ampli; La croix profonde, la croix profonde, l'espace de paramètre d'AFM est plus petite et plus simple. Et l'auteur papier fournit une adresse GITUB mise en œuvre par TENSORFLOW. Vous êtes intéressé par le code source. Vous pouvez cliquer pour lire le texte d'origine.


Deuxièmement, Introduction
Il est bien connu que la supervision de l'apprentissage a une grande proportion dans l'apprentissage de la machine et l'exploitation minière des données. Superviser l'apprentissage Une certaine mesure peut être considéré comme apprendre une fonction, laissant la production de plus en plus proches de notre valeur réelle. Si la valeur que nous voulons est un point flottant, alors c'est le modèle de retour. Si c'est une catégorie, le modèle de classification est classé. En termes de recommandations, de publicité en ligne et de reconnaissance d'images, le modèle de surveillance a joué un rôle dans la lecture.

Lorsque nos caractéristiques sont principalement basées sur la catégorie, les informations croisées entre les fonctionnalités d'apprentissage du modèle deviendront très critiques. Nous donnons un exemple simple, tel que notre agenceDifférentes caractéristiques de l'industrie et des hiérarchies. L'occupation a du personnel et des ingénieurs bancaires, des niveaux, primaires et avancés. Parmi eux, le personnel de la banque principale devrait être inférieur à celui des ingénieurs principaux, tandis que les revenus de cadres supérieurs sont plus élevés que les ingénieurs principaux. Il est difficile de prédire précis si le modèle ne peut pas apprendre les informations croisées.

Exemples de modèles LR, le modèle LR est essentiellement le résultat d'une somme pondérée de chaque variable. Qu'il s'agisse de primaire ou de senior, d'ingénieurs et de membres de la banque, ces deux poids professionnels sont les mêmes. De toute évidence, cette fois, le modèle est difficile à prédire précis.
Afin d'envisager des informations croisées entre les fonctionnalités, une méthode couramment utilisée consiste à introduire un nouveau vecteur de paramètres, calculer le poids croisé par le volume du vecteur. Par exemple, le modèle de régression polynomiale (PR), tous ses poids caractéristiques sont obtenus par apprentissage. Cependant, une telle conception a un problème relativement important, ce qui est qu'il n'ya aucun moyen d'apprendre certains des poids des réunions de données clairsemées. Par exemple, s'il s'agit de la classe de biens et de l'occupation de l'utilisateur, il est difficile de garantir que l'ensemble de formation contient suffisamment d'échantillons de formation dans l'ensemble de la formation.

La présence du modèle FM consiste à résoudre ce problème, cela devrait être très familier, je ne dirai pas grand chose. En bref, il est de donner à chaque fonctionnalité d'un vecteur, lorsque deux caractéristiques, représentent le poids de leurs caractéristiques croisées en calculant le volume de leurs vecteurs. Parce que cette conception innovante, FM a réalisé un énorme succès et il existe une application dans le système de recommandation et PNL. Mais le modèle FM a toujours des défauts. Par exemple, dans le monde réel, différentes caractéristiques ont souvent des effets différents, toutes les caractéristiques ne conviennent pas aux intersections caractéristiques. Donc, une idée améliorée est de réduire les croix de ces personnes efficaces et automatiquement rose ou désactivé différentes caractéristiques croisées.


Dans cet article, nous améliorerons l'effet de la FM en distinguant une combinaison de traversées de caractéristiques, et la manière de traiter la voie est le mécanisme d'introduction d'un réseau neuronal de l'attention.


3, FM Partie
Les détails du modèle FM que nous avons déjà écrit plusieurs fois, cela n'est plus répété, le petit partenaire qui doit examiner peut cliquer sur la porte de livraison pour revivre. Les détails de la FM.

Quatrièmement, AFM

entrons directement le principe de mise au point sur cet article.


Modèle


La figure suivante montre la structure du modèle AFM, afin de faciliter la visualisation, nous retirons la régression linéairepartie.

La couche d'entrée et la couche d'intégration sont compatibles avec le modèle FM et son entrée est une représentation clairsemée, qui transforme non-zéro sur des vecteurs flottants. Ensuite, nous allons l'expliquer en détail, la couche d'interaction paire est l'intersection de la caractéristique bidimensionnelle et de la couche de mise en commun à base d'attention, qui est le contenu principal de ce papier.


La couche de réalisation à base d'attention


L'apprentissage
L'AFM est directement la capacité d'expression de données est améliorée, de sorte que Il peut être utilisé dans d'autres scènes en plus d'une série de problèmes prédictifs. Comme la régression, la classification et le tri. Le problème du problème est différent et la fonction de perte utilisée est différente. Par exemple, pour le problème de régression, nous utilisons généralement des carrés moyennes, deux problèmes de classification, nous utilisons des entropies croisées. Dans cet article, nous nous concentrons sur le problème de la régression et utilisons des carrés moyens comme cible d'optimisation du modèle.
Afin d'optimiser l'optimisation de l'optimisation, nous utilisons un algorithme de goutte de gradient aléatoire (SGD) pour effectuer des paramètres de formation. SGD est l'une des méthodes optimisées largement utilisées dans l'apprentissage des machines et est également soutenue par des cadres d'apprentissage profond tels que Tensorflow, Pytorch, ce sera donc plus.
Prévention

V. Expériment


Les expériences ont l'accent sur les trois questions suivantes:
Comment le paramètre Super SUPL est-il affectant les performances de l'AFM (ratio de goutte et un réseau régulier d'attention)?
Le réseau d'attention peut-il apprendre efficacement l'importance de la croix croisée?

Comment AFM et d'autres modèles avancés?


Réglage de l'expérience

Deux ensembles de données décrits ont été utilisés pour effectuer des expériences, respectivement, FRAPPE et MOVIELENS.

FRAPPE est utilisé pour effectuer des recommandations liées au contexte, dont 96203 utilisateurs utilisés sous différents contextes. Il existe 8 variables de contexte, qui sont des caractéristiques catégoriques, y compris la météo, la ville, le temps, etc. Nous traitons des caractéristiques via une chaude pour obtenir 5 382 fonctionnalités.

MOVIELENS, utilisé pour rendre les étiquettes utilisateur recommandées, y compris 668953 Films de tags. Nous traduisons chaque application de balise (ID utilisateur, filmid et tag) dans un vecteur de fonctionnalité pour obtenir des fonctionnalités 90445.


Standard d'évaluation

    Pour tous les ensembles de données, la valeur d'étiquette est 1 indique que l'utilisateur utilise l'application dans le contexte ou que l'application est la balise vidéo. Nous avons étiqueté les échantillons négatifs comme -1, qui ont obtenu des échantillons de 288609 et 2006859 sur les deux ensembles de données. Nous utiliserons 70% des échantillons tels que des ensembles de formation, un ensemble de vérification de 20% et un ensemble de tests de 10%.

    L'échantillon de l'ensemble de vérification n'est utilisé que pour déboguer les paramètres et l'évaluation des performances est complétée via l'ensemble de tests. Nous utilisons RMSE (erreur carrée moyenne racine comme indicateurs de performance.

Nous comparons AFM et Libfm, Hofm, Wide & Amp. Deep et Deepcross, et ont débogué au mieux afin de faire de la bonne manière de ces modèles. En plus du LibfM, tous les modèles sont formés via la méthode Min-Batch Adagrad. La taille du lot de FRAPPE et MOVIELES est de 128 et 4096, respectivement et la taille d'intégration est de 256.

Nous avons débogué pour un large et des amples; profond et approfondi et utilisez la méthode d'arrêt précoce. Pour les modèles large, profond, de profondeur et AFM, nous avons constaté que l'effet de l'utilisation du vecteur d'incorporation pré-formé est meilleur que l'initialisation aléatoire. Le débogage de l'abandon est le suivant:

Recherche (question 1)


Dans l'expérience, nous nous concentrons sur les effets de deux paramètres sur les performances du modèle, respectivement. Oui, le facteur normal et le Facteur d'attention, la taille de la couche cachée du réseau d'attention.

Premièrement, voyons les résultats du débogage, juste dans la base régulière, le débogage qu'il n'a aucun effet sur les autres parties du modèle et que tout le résultat est relativement plus précis.

Nous pouvons constater que les deux ensembles de données, nous avons une valeur appropriée pour apporter une certaine amélioration. Par rapport au débogage des paramètres d'abandon scolaire, il est clair que l'impact est plus affecté.


Nous pouvons voir que le facteur d'attention a de très petits impacts et d'abandonComme la même, il peut y avoir non. Ce n'est pas l'accent, l'accent est mis sur ce dernier facteur d'attention n'est pas une couche d'attention, car il doit être parsemé du vecteur d'intégration. Donc, il doit être compatible avec la taille d'intégration. C'est-à-dire que dans cette expérience, l'influence n'est pas simplement un réseau d'ATERTION, la taille de l'intégration elle-même est également une grande variable. Mais ce papier n'est pas mentionné, je ne sais pas si c'est intentionnel.

L'impact du réseau d'attention (question 2)

Le présent document est introduit dans le mécanisme de l'attention parmi la FM, puis il y a eu un impact sur le réseau d'attention?


La réponse est oui, nous pouvons également voir de la photo ci-dessus. Lorsque le facteur d'attention est 1, le modèle est toujours promu. À ce stade, le modèle s'est dégradé dans un modèle de régression linéaire de second ordre, mais en raison des paramètres du réseau d'attention, l'effet est toujours meilleur que FM, ce qui peut illustrer pleinement l'effet du réseau d'attention.

En outre, le document démontre également la convergence du processus de formation global.


À partir de ce graphique, nous pouvons constater que l'effet de l'AFM est évidemment meilleur que FM, ce qui prouve également l'effet du réseau d'attention.
De plus, le document a également fait un travail de recherche supplémentaire. Tout d'abord, le résultat de la sortie d'attention est fixe est, puis la partie FM est ensuite formée. Ensuite, nous fixons la partie FM, n'entraînez que les paramètres du réseau d'attention. Lorsque la convergence, l'effet du modèle est augmenté de 3%. Après cela, nous avons choisi les échantillons de trois niveaux de la concentration de test, montrant les résultats du score de l'attention et le score d'interaction comme suit:

Nous pouvons voir qu'il n'a pas de réseau d'attention pour FM, de sorte que tout son poids est identique, ce qui est de 0,33. La quantité d'AFM avec un réseau d'attention est significativement plus élevée dans la balise d'élément de cette colonne et le résultat final est également plus proche de 1.


Il n'y a pas une description détaillée dans le document de score d'interaction ici, et il devrait être que la formule du FM devrait être.
Comparaison des performances (question 3)

Enfin, nous montrons les performances de chaque modèle dans l'ensemble de tests.


Lorsque le paramètre paramètre est affiché est le nombre de modèles, nous pouvons voir l'échantillon d'AFMLe nombre de paramètres n'est que beaucoup de libfm, mais son RMSE est le plus petit.Un effet de l'AFM est prouvé.
Sixième, fin
à ici, ce papier d'AFM est terminé.Les points de base en papier ont mentionné cet article, il peut s'agir d'une légère partie de la pièce, je pense qu'il n'y a rien à décrire ou à expliquer.Si vous vous sentez confus, vous avez la capacité ou vous suggérez de lire le texte original.Cliquez pour afficher https://github.com/hexiangn/ational_factorization_machine

Vous constaterez que même si vous lisez le texte original, vous aurez beaucoup de confusion ou de place peu claire. A ce moment-là, Nous avons besoin de nous selon que j'ai une spéculation raisonnable sur le modèle et la compréhension des problèmes.Devinez plus, vous constaterez que vous allez lire de plus en plus doucement, c'est aussi une des capacités.


J'espère que tout le monde peut prendre un peu de temps pour lire les papiers, apprendre quelque chose.

Sujets

Catégories