Skip to main content

Machines de coefficient d'attention: apprendre le poids de la fonctionnalité d'interaction grâce à l'optimisation du réseau d'optimisation basée sur le modèle FM. Si vous ne comprenez pas le modèle FM, vous pouvez examiner le contenu pertinent du modèle FM via les éléments suivants fournis.


FM est un modèle familier, introduit une seconde croix, calculant tout avec des vecteurs, des facteurs de facteur des sections deux atteignent l'effet de l'efficacité. Mais FM a également un inconvénient, bien que nous ayons amélioré son efficacité grâce à un certain nombre de manières mathématiques, mais certaines questions n'ont pas été résolues. Par exemple, pour une fonctionnalité fixe, c'est comme des interférences d'interférence d'autres caractéristiques. Par exemple, toutes les seconde caractéristiques de liaison ne sont pas utiles, certaines plutôt que du bruit.

Dans cet article, nous optimisons le modèle FM en éliminant l'importance de différentes combinaisons de caractéristiques et nous appelons ce modèle FM AFM (personnel d'attention).

Caractéristiques maximalesA C'est l'importance de la croix prise par les réseaux neurologiques. Attention. Nous avons eu un test complet sur deux ensembles de données réels et les résultats des tests ont montré que l'AFM avait 8,6% de FM. Comparé à large et ampli; La croix profonde, la croix profonde, l'espace de paramètre AFM est plus petite et plus simple. Et l'auteur de papier fournit une adresse GitHubade faite par Tensorflow. Intéressé par le code source. Vous pouvez cliquer pour lire le texte d'origine.


Lundi, introduit

On sait que la surveillance de l'apprentissage a une grande partie de l'apprentissage de la machine et de l'exploitation minière des données. Surveillance Certains niveaux peuvent être envisagés pour étudier une fonction, permettant ainsi à la sortie plus près de notre valeur réelle. Si la valeur que nous voulons est un point flottant, c'est le modèle de retour. Si c'est une catégorie, le modèle de classification est classé. En termes de recommandations, de la publicité en ligne et de la reconnaissance d'images, le modèle de surveillance a joué un rôle dans la lecture.

lorsque les caractéristiques de nos propriétairesFaible basé sur des catalogues, les informations croisées entre les fonctionnalités d'apprentissage du modèle deviendront très importantes. Nous fournissons un exemple simple, tel que notre agence, diverses caractéristiques de l'industrie et de la hiérarchie. L'occupation a du personnel bancaire et des ingénieurs, des niveaux, primaires et avancés. Parmi eux, le personnel de la banque principale devrait être inférieur à celui des principaux ingénieurs, tandis que les revenus des employés haut de gamme sont supérieurs aux ingénieurs principaux. Il est difficile de prédire exactement si le modèle ne peut pas apprendre des informations croisées.


Exemples de modèles LR, le modèle LR est essentiellement le résultat de la résumation du poids brut de chaque variable. Qu'il s'agisse d'un personnel primaire ou de grande classe, d'ingénieurs et de banques, ces deux poids professionnels sont les mêmes. De toute évidence, cette fois, le modèle est difficile à prédire avec précision.

Pour examiner les informations croisées entre les fonctionnalités, une méthode couramment utilisée consiste à introduire un nouveau vecteur de paramètre, calculer le poids diagonal en fonction du volume de vecteur.Par exemple, le modèle de régression polynomiale (PR), toutes ses caractéristiques croisées sont obtenues par apprentissage. Cependant, une telle conception a un problème relativement important, ce qui n'est aucun moyen d'apprendre une partie du poids des réunions de données clairsemées. Par exemple, s'il s'agit d'un cours de cours et de carrière d'un utilisateur, il est difficile de veiller à ce que le ministère de la Formation contienne une formation suffisante en formation.

La présence de modèle FM consiste à résoudre ce problème, ce sera très familier, je ne dirai pas grand chose. En bref, il est de fournir à chaque fonctionnalité pour un vecteur, lorsque deux fonctionnalités transversales, montrant le poids de leurs caractéristiques croisées en calculant la masse de leurs vecteurs. En raison de cette conception créative, FM a obtenu un grand succès et dispose d'une application dans le système recommandé et PNL. Mais le modèle FM a toujours une brièveté. Par exemple, dans le monde réel, différentes caractéristiques ont souvent des effets différents, pas toutes les caractéristiques appropriées pour les intersectionsEn vedette. Par conséquent, une idée améliorée est de réduire efficacement les décalcomanies des personnes et automatiquement les caractéristiques croisées différentes.


Dans cet article, nous améliorerons l'effet FM en distinguant la combinaison de points d'intersection de la caractéristique et de la manière dont cette méthode est le mécanisme d'introduction d'un réseau neurologique faisant attention.

3, FM

Les détails du modèle FM que nous avons écrit plusieurs fois, cela n'est plus répété, les petits partenaires doivent envisager peut cliquer sur la livraison de la porte pour revivre les détails de FM .


Quatrièmement, AFM


S'il vous plaît participer au principe de concentration sur cet article.

Modèle

La figure suivante montre la structure du modèle AFM, afin de faciliter la visualisation, nous retirons la régression linéaire.

La couche d'entrée et d'embarquage correspond au modèle FM et son entrée représente de manière élégante, transformant les autres vecteurs vers des bouées. Ensuite, nous allonsExplication des détails à ce sujet, la couche d'interaction de couple est l'intersection des caractéristiques à double sens et la classe brute basée sur l'attention, qui est le contenu principal de cet article.


Sur la base de l'attention

L'apprentissage


L'AFM est directement la possibilité que le mal brut est amélioré, de sorte que Il peut être utilisé dans d'autres scènes sur une variété de problèmes prédictifs. Comme la régression, la classification et la classification. Le problème du problème est différent et la fonction perdue est utilisée comme différente. Par exemple, pour des problèmes de régression, nous utilisons souvent des problèmes moyens carrés, deux problèmes de classification, nous utilisons des entropies croisées. Dans cet article, nous nous concentrons sur la régression et l'utilisation moyenne moyenne des objectifs d'optimisation des modèles.

Optimiser l'optimisation d'optimisation, nous utilisons des algorithmes de déroulement de gradient aléatoires (SGD) pour effectuer une formation de paramètres. SGD est l'une des méthodes optimisées largement utilisées dans les machines d'apprentissage et égalementSoutenu par des cadres profonds comme Tensorflow, Pytorch, il y aura donc plus.


Prévention

V. Expériments

Les expériences ont l'accent sur les trois questions suivantes:


Comment le paramètre principal améliore-t-il les performances de l'AFM (taux d'abandon) et réseau régulier de note de réseau)?

L'attention du réseau peut-elle apprendre l'importance de la croix croisée efficacement?

AFM et d'autres modèles avancés?
Réglages de test

Deux ensembles de données décrits utilisés pour effectuer des expériences, respectivement, FRAPPE et MOVIELENS.

FRAPPE est utilisé pour faire des recommandations liées au contexte, y compris 96203 utilisateurs utilisés dans différents contextes. Il existe 8 variables de contexte, qui sont des caractéristiques de classification, y compris la météo, la ville, le temps, le V.V. Nous gérons les caractéristiques via une chaude pour obtenir 5 382 fonctionnalités.

MOVIELENS, utilisé pour rendre l'étiquette utilisateur proposée,Comprend 668953 cartes de cartes. Nous traduisons chaque application de carte (ID utilisateur, film et carte) dans un vecteur d'histoire pour recevoir 90445 fonctionnalités.

    Standard d'évaluation

    Pour tous les ensembles de données, la valeur d'étiquette est 1 indiquant que l'utilisateur utilise l'application dans le contexte ou l'application est la carte de cinéma. Nous étiquetons les schémas négatifs de -1, obtenu des échantillons 288609 et 2006859 sur les deux ensembles de données. Nous utiliserons 70% des modèles comme un ensemble de formation, un ministère de 20% de vérification et un kit de test de 10%.
L'échantillon du vérificateur n'est utilisé que pour déboguer les paramètres remplis et les évaluations de performance via le kit de test. Nous utilisons RMSE (l'erreur d'activité moyenne moyenne est l'indicateur de performance.


Nous comparons AFM et Libfm, Hofm, Wide & Amposs; Deep et Deepcross, et le meilleur débogage pour travailler avec ces modèles. En plus du libfm, Tous les modèles sont formés via la méthode Min-Batch Adagrad. La taille du lot de FRAPPE et MOVIELL est respectivement de 128 et 4096, etLa taille intégrée est 256.

Nous avons débogué large et ampli; Profonde et profonde et utiliser la méthode pour s'arrêter bientôt. Pour les modèles larges et amplis; Deep, Deepcross et AFM, nous constatons que l'effet de l'utilisation de vecteurs incorporés est mieux formé que la randomisation. Le débogage d'abandon est le suivant:

Recherche (verset 1)

Dans l'expérience, nous nous sommes concentrés sur les effets de deux paramètres sur les performances modèles, oui, des éléments normaux faibles et des facteurs d'attention, le Taille du réseau de couche cachée.


Tout d'abord, voir les résultats du débogage, il suffit de l'utiliser normalement, le débogage qu'il n'a aucun effet sur d'autres parties du modèle et tout le résultat est relativement précis.

Nous pouvons voir que deux ensembles de données, nous avons une valeur appropriée pour apporter une certaine amélioration. Par rapport aux paramètres d'abandon de débogage, il est clair que l'impact est plus affecté.


Nous pouvons voir que le facteur d'attention a un impactTrès petit et abandonnez l'école comme ça, peut ne pas avoir. Ce n'est pas un objectif, l'accent est mis sur l'accent que ce facteur d'attention n'est pas une classe d'attention, car il sera parsemé de vecteurs embarqués. Par conséquent, il doit correspondre à des tailles incorporées. Cela signifie que dans cette expérience, l'effet n'est pas seulement un réseau d'artère, la taille intégrée est également une grande variable. Mais cet article n'est pas mentionné, je ne sais pas si c'est intentionnel.

L'impact de l'attention du réseau (question 2)

L'objectif de cet article est inclus dans le mécanisme d'attention entre FM, puis il y a des impacts sur la note de réseau?

La réponse est oui, nous pouvons également voir de l'image ci-dessus. Lorsque le facteur d'attention est 1, le modèle est toujours promu. À ce stade, le modèle décomposé dans le deuxième modèle de régression linéaire linéaire, mais en raison des paramètres de l'attention du réseau, l'effet est encore meilleur que FM, ce qui peut illustrer l'effet de l'idée du réseau oncle.

En outre, l'article a également démontré la convergence du processus de formation global.

À partir de ce tableau, nous pouvons voir que l'effet de l'AFM est clairement meilleur que FM, démontre également l'influence du réseau d'attention.

En outre, l'article a également fait un travail de recherche supplémentaire. Premièrement, la sortie de l'attention de la sortie est fixée, la section FM est ensuite formée. Après cela, nous fixons la section FM, n'entraînons que les paramètres de l'attention du réseau. Lorsque la convergence et l'effet du modèle ont augmenté de 3%. Après cela, nous avons choisi les modèles de trois niveaux en mettant l'accent sur la mise au point, montrant les résultats du point d'attention et le point d'interaction comme suit:

Nous pouvons voir qu'il n'a pas de réseau faire attention à FM, Donc, tout son poids est identique, tous sont 0,33. La quantité d'AFM avec un réseau d'attention significativement plus élevé dans cette carte d'article, cette colonne et le résultat final sont proches de 1.


Il n'y a pas de descriptions détaillées dans la feuille de point interactive ici, et elle doit être la formule de FM devrait être.

Comparaison de la performance (verset 3)

Enfin, nous montrons la performance de chaque tissuImage dans le kit de test.


Dans quel paramètre est affiché comme le nombre de modèles, nous pouvons voir que le modèle de paramètre Afmmming est seulement beaucoup de libfm, mais son RMSSE est le plus petit. Un effet de l'AFM est prouvé.

Vendredi, finissant

Viens ici, ce document AFM a pris fin. Les points de base du journal mentionnaient cet article, il peut s'agir d'un peu de la pièce, je pense qu'aucune façon de décrire ou d'expliquer. Si Vous vous sentez confus, vous pouvez ou vous suggère de lire le texte original. Cliquez ici pour voir https://github.com/hexiangn/ational_factorization_machine

Vous constaterez que même si vous lisez le texte original, Vous aurez beaucoup de confusion ou de pas clair. À ce stade, à ce moment-là, nous avons besoin de nous pour me suivre une spéculation raisonnable sur le modèle et comprendre le problème. Plus, vous constaterez que vous allez lire de plus en plus doucement, c'est aussi une des possibilités.


J'espère que les gens peuvent prendre un peu de tempsPour lire les articles, apprenez quelque chose.

Sujets

Catégories