Le champ proposé est un autre papier classique, séparant le mécanisme d'attention en quelques minutes

Machines de coefficient d'attention: apprendre le poids de la fonctionnalité d'interaction grâce à l'optimisation du réseau d'optimisation basée sur le modèle FM. Si vous ne comprenez pas le modèle FM, vous pouvez examiner le contenu pertinent du modèle FM via les éléments suivants fournis.

FM est notre modèle familier, introduit deux secondes intersections, calculant tous les seconds rangs de l'intérieur vectoriel Le coefficient vient à atteindre le but de l'avancement. Mais FM a également un inconvénient, bien que nous ayons amélioré son efficacité grâce à un certain nombre de manières mathématiques, mais certaines questions n'ont pas été résolues. Par exemple, pour une fonctionnalité fixe, c'est comme des interférences d'interférence d'autres caractéristiques. Par exemple, toutes les seconde caractéristiques de liaison ne sont pas utiles, certaines plutôt que du bruit.

Dans cet article, nous optimisons le modèle FM en éliminant l'importance de différentes combinaisons de fonctionnalités, nous appelons cela un nouveau modèle FM "Personnel d'attention".

Sa caractéristique maximale est l'importance de la croix prise par les réseaux neurologiques. Nous avons eu un test complet sur deux ensembles de données réels et les résultats des tests ont montré que l'AFM avait 8,6% de FM. Comparé à large et ampli; La croix profonde, la croix profonde, l'espace de paramètre AFM est plus petite et plus simple. Et l'auteur de papier fournit une adresse GitHubade faite par Tensorflow. Intéressé par le code source. Vous pouvez cliquer pour lire le texte d'origine.

Lundi, introduit

On sait que la surveillance de l'apprentissage a un grand taux de machines d'apprentissage et d'exploiter des données. Surveillance Certains niveaux peuvent être envisagés pour étudier une fonction, permettant ainsi à la sortie plus près de notre valeur réelle. Si la valeur que nous voulons est un point flottant, c'est le modèle de retour. Si c'est une catégorie, le modèle de classification est classé. En termes de recommandations, de la publicité en ligne et de la reconnaissance d'images, le modèle de surveillance a joué un rôle dans la lecture.

Lorsque nos caractéristiques sont principalement basées sur des catalogues, les informations croisées entre les modèles d'apprentissage deviendront très importantes. Nous fournissons un exemple simple, tel que deux autres caractéristiques de l'autre carrière et la hiérarchie. L'occupation a du personnel bancaire et des ingénieurs, des niveaux, primaires et avancés. Parmi eux, le personnel de la banque principale devrait être inférieur aux ingénieurs principaux, tandis que les employés âgés sont plus élevés que les ingénieurs principaux. Il est difficile de prédire exactement si le modèle ne peut pas apprendre des informations croisées.

Exemples de modèle LR, le modèle LR est fondamentalement le résultat qui peut intégrer le poids de chaque variable. Qu'il s'agisse d'un personnel primaire ou de grande classe, d'ingénieurs et de banques, ces deux poids professionnels sont les mêmes. De toute évidence, cette fois, le modèle est difficile à prédire avec précision.

Pour examiner les informations croisées entre les fonctionnalités, une méthode courante consiste à introduire un nouveau vecteur de paramètre, vecteur inter-computing. Par exemple, modèle de régression polynomialePR, tout son poids croisé est obtenu par apprentissage. Cependant, une telle conception a un problème relativement important, ce qui n'est aucun moyen d'apprendre une partie du poids des réunions de données clairsemées. Par exemple, s'il s'agit d'un cours de cours et de carrière d'un utilisateur, il est difficile de veiller à ce que le ministère de la Formation contienne une formation suffisante en formation.

La présence de modèle FM consiste à résoudre ce problème. Ce sera très familier, je ne dirai pas beaucoup. En bref, il est de fournir à chaque fonctionnalité pour un vecteur, lorsque deux fonctionnalités transversales, montrant le poids de leurs caractéristiques croisées en calculant la masse de leurs vecteurs. En raison de cette conception créative, FM a obtenu un grand succès et dispose d'une application dans le système recommandé et PNL. Mais le modèle FM a toujours une brièveté. Par exemple, dans le monde réel, différentes caractéristiques ont souvent des effets différents, pas toutes les caractéristiques qui conviennent à des intersections spécifiques. Alors une idéeL'amélioration est réduite efficacement les racines des personnes et automatiquement des caractéristiques croisées différentes.

Dans cet article, nous améliorerons l'effet FM de différentes manières en fonction de la combinaison de fonctionnalités et de la manière de gérer cela est le mécanisme d'introduction d'un réseau neurologique faisant attention.
MARDI, FM
Détails du modèle FM que nous avons écrit plusieurs fois, cela n'est plus répété, les petits partenaires doivent envisager de prendre en compte les détails de FM sont conservés.
Quatre, AFM
Entrez directement une règle directe AFM directement ici.
Modèle
Ce qui suit montre la structure du modèle AFM, pour faciliter la visualisation, nous retirons la régression linéaire.
La couche d'entrée et la couche embarquée correspondaient au modèle FM et son entrée montrait peu, modifiant d'autres modifications sans vecteur de bouée. Ensuite, nous allons expliquer les détails à ce sujet, classe interactiveLe couple est l'intersection des caractéristiques bidirectionnelles et des grades brutes basées sur l'attention, qui est le contenu principal de cet article.
Bref classe interactive

sur la base de l'attention

L'apprentissage
a été favorisé directement sur L'expression de données par rapport à FM, elle peut donc être utilisée dans des scripts autres qu'une série de problèmes prédictifs. Comme la régression, la classification et la classification. Le problème du problème est différent et la fonction perdue est utilisée comme différente. Par exemple, pour des problèmes de régression, nous utilisons souvent des problèmes moyens carrés, deux problèmes de classification, nous utilisons des entropies croisées. Dans cet article, nous nous concentrons sur la régression et l'utilisation moyenne moyenne des objectifs d'optimisation des modèles.

Pour optimiser l'optimisation d'optimisation, nous utilisons des algorithmes de déroulement de gradient aléatoires "SGD" pour former des paramètres. SGD est l'une des méthodes optimisées qui sont largement utilisées dans l'apprentissage MEt est également soutenu par des cadres profonds comme Tensorflow, Pytorch, ce sera donc plus.

Précautions

5, Expériences

L'expérience axée sur les trois questions suivantes:

Paramètre Super Key affectant les taux de réduction des performances AFM et les éléments habituels de la note de réseau Dans

La note du réseau peut-elle apprendre l'importance du croisement croisé efficacement?

AFM et d'autres modèles avancés?

Réglages de test
Utilisé deux ensembles de données de revenus utilisés pour effectuer des expériences, respectivement, FRAPPE et MOVIELENS.

FRAPPE est utilisé pour faire des recommandations liées au contexte, y compris 96203 utilisateurs utilisés dans différents contextes. Il existe 8 variables contextuelles, ces variables sont les caractéristiques des caractéristiques goriaques, y compris la météo, les villes, le temps, le V.V. Nous gérons les caractéristiques via une chaude pour obtenir 5 382 fonctionnalités.

MOVIELENS, utilisé pour créer des étiquettes utilisateur, BLes étangs comprennent des cartes 668953. Nous convertissons chaque application de carte "ID utilisateur, film et carte" dans un vecteur de fonctionnalité pour recevoir 90445 fonctionnalités.

Évaluation standard

Pour tous les ensembles de données, la valeur d'étiquette indique que les utilisateurs utilisent des applications dans des cartes contextuelles ou des cartes appliquées aux films .. Nous étiquetons les modèles négatifs de -1, obtenu 288609 et 2006859 échantillons sur les deux ensembles de données. Nous utiliserons 70% des modèles comme un ensemble de formation, un ministère de 20% de vérification et un kit de test de 10%.

Les échantillons du kit de vérification ne sont utilisés que pour déboguer les paramètres remplis et l'évaluation des tarifs via le kit de test. Nous utilisons RMSE (l'erreur de défaillance moyenne originale est l'indicateur de performance.
Nous comparons AFM et Libfm, Hofm, Wide Amposs; Deep et Deepcross, et le meilleur débogage du travail par ces modèles. En plus du libfm, tout Les modèles sont formés via la méthode Adagrad de Min-Batch. La taille du lot de FRAPPE et MOVIELS est 128 et 4096, VOH Taille intégrée est 256.

Nous avons débogué à large et ampli; Taux de dropgross profond et utilisez et utilisez bientôt la méthode d'arrêt. Pour les modèles larges et amplis; Deep, Deepcross et AFM, nous constatons que l'effet de l'utilisation de vecteurs incorporés est mieux formé que la randomisation. DÉLESSES DERMALES Comme suit:

Étudier "Problème"
Dans l'expérience, nous nous sommes concentrés sur deux paramètres pour la demande de performances des modèles sans soudure, l'impact s'est concentré sur des expériences et des expériences . Éléments normaux et facteurs d'attention, la taille du réseau d'attention de la couche cachée.
Tout d'abord, voir les résultats du débogage, il suffit de l'utiliser normalement, le débogage qu'il n'a aucun effet sur d'autres parties du modèle et tout le résultat est relativement précis.

Nous pouvons voir que deux ensembles de données et notre valeur appropriée peuvent apporter une certaine amélioration. Par rapport aux paramètres d'abandon de débogage, évidemment tLes milogrammes sont plus touchés.

Nous pouvons constater que le facteur d'attention a un très faible impact sur les résultats et les paramètres d'abandon des abandons. Ce n'est pas un objectif, l'accent est mis sur l'accent que ce facteur d'attention n'est pas une classe d'attention, car il sera parsemé de vecteurs embarqués. Par conséquent, il doit correspondre à des tailles incorporées. Cela signifie que dans cette expérience, l'effet n'est pas seulement un réseau d'artère, la taille intégrée est également une grande variable. Mais cet article n'est pas mentionné, je ne sais pas si c'est intentionnel.

Impact des notes de réseau
Cet article se concentre sur l'introduction d'un mécanisme d'attention entre FM, a ensuite une notes d'impact du réseau?
La réponse est oui, nous pouvons également voir de l'image ci-dessus. Lorsque le facteur d'attention est 1, le modèle est toujours promu. À ce stade, le modèle décomposé dans le deuxième modèle de régression linéaire linéaire, mais en raison des paramètres de la note de réseau, l'effet est encore meilleur que FM, peut illustrer l'effet complet.Attention au réseau.

En outre, l'article a également démontré la convergence du processus de formation global.

De ce graphique, nous pouvons constater que l'effet de l'AFM est évidemment meilleur que FM, démontre également l'efficacité de la note de réseau.

En outre, l'article a également fait un travail de recherche supplémentaire. Premièrement, la sortie de l'attention de la sortie est fixée, la section FM est ensuite formée. Après cela, nous fixons la section FM, n'entraînons que les paramètres de l'attention du réseau. Lorsque la convergence et l'effet du modèle ont augmenté de 3%. Après cela, nous avons choisi des modèles de trois niveaux en mettant l'accent sur la mise au point, montrant les résultats des points d'attention et des points d'interaction comme suit:

Nous l'avons peut-être trouvé, pour FM, Il n'a pas de réseau d'attention, de sorte que toutes les interactions ont son poids, toutes sont de 0,33. Et ajoutant l'AFM de notes de réseau dans iTag-balise Cette colonne est nettement supérieure et le résultat final est proche de 1.

Il n'y a pas de descriptions détaillées dans le papier interactif ici, et il est justeEst la formule de FM devrait être.

Comparaison du problème de performance "3"

Enfin, nous montrons les performances de chaque modèle dans le kit de test.

Parames dans lesquels Param est affiché comme le nombre de modèles. Nous pouvons voir que les paramètres d'échantillons d'AFM ne sont que multiples libfm, mais son RMSSE est le plus petit. Un effet de l'AFM est prouvé.

Six, terminé
ici, cet article AFM était terminé. Les points de base du journal mentionnaient cet article, il peut s'agir d'un peu partie de la section que je pense que rien de décrire ou d'expliquer. Si vous vous sentez confus, vous pouvez ou suggérez de lire le texte original. Cliquez ici pour voir https://github.com/hexiangn/ational_factorization_machine
Vous constaterez que même si vous lisez le texte original, vous aurez beaucoup de confusion ou de temps peu clair que nous devons spécifier Raisonnablement basé sur votre propre compréhension du modèle et du problème. Devinez plus, vous constaterez que vous allez lire beaucoupDe plus en plus doucement, c'est aussi une des possibilités.

J'espère que les gens peuvent prendre un peu de temps pour lire les articles, apprendre quelque chose.

Sujets

mécanisme.

Catégories

Nouvelles des données