Bonjour, aujourd'hui, nous continuons à parler du système proposé.
Nous avons introduit une grande famille FM proposée selon les recommandations, du modèle FM, de Pure FM, à l'AFM, FFM, DeepFM, V.V. Une série de modèles FM version finale est Xdeepfm. Ce modèle est très compliqué, qui peut être dit de changer de magie FM en ultime, cet article ne discute pas de cela, attendez ce modèle lorsque le papier est analysé.
Maintenant, si vous regardez en arrière, vous constaterez que les différentes modifications du modèle FM sont vraiment une expédition. À cette époque, je ne savais pas où l'avenir était, et je ne savais pas ce qui étudiait au plus profond de la zone de recommandation. Ressemblent. Les personnes âgées essaient de sortir que le modèle FM est bon, alors le moyen le plus simple est bien sûr une série de changements moléculaires sur la FM. Après les changements de sorts, explorer progressivement la méthode, a une mise à niveau ultérieure.
Quelle est la version de suivi de FM? En fait, plus un seul modèleSimple ou un modèle, qui est une pensée et une méthode. Notre article précédent a également mentionné que l'application de vecteurs intégrée, basée sur des applications vectorielles intégrées, y compris de nombreuses branches, ayant des diluants. Coupe. Par exemple, il existe une étude continue des mises à niveau traditionnelles du CNTH, certains modèles d'apprentissage multi-tâches peuvent rendre le modèle en même temps optimiser certains indicateurs, certains épisodes améliorés à la recherche, souhaitent former des modèles plus intelligents, etc.Aujourd'hui, nous allons d'abord parler dans la direction de l'optimisation TLB la plus traditionnelle, introduisant des comparaisons relatives de modèles et de méthodes pionniers.
1. Lorsque l'heure de l'utilisateur
Lors de l'introduction du modèle FM, a indiqué qu'il a un gros problème, ce qui signifie que le modèle du modèle a été corrigé, c'est-à-dire que nous sommes cette fonctionnalité qui est cette fonctionnalité qui est également fixé. Il ne semble que quoi, car apprendre la machine a toujours de profondeur, leur modèle est fixé et au moins la taille est fixe.
Le problème n'est pas dans le modèle, mais lorsque nous utilisons, nous utilisons toujours la scène de centre commercial électrique. Tout le monde sait que dans les centres commerciaux vidéo, certains utilisateurs actifs et certains utilisateurs relativement positifs. Plus frustré. Plus frustré, vint parfois acheter quelque chose. Pour deux utilisateurs différents, il est clair que le comportement de personnes plus âgées et d'informations est plus adopté. Ceci est également bien compris, plus le comportement des utilisateurs, plus les options de prononçage, le contraire est que si l'utilisateur manque, il est difficile de deviner la priorité.
Toutefois, parce que l'entrée du modèle a été corrigée, le passé a acheté 100 articles et utilisateurs qui n'ont pas acheté de marchandises, gérant leurs caractéristiques mettant fin à la même direction, claire que cela conduira à beaucoup d'informations dans l'ancien . Un autre problème est que le modèle FM lui-même n'a pas de traitement de séquence, certainement pas apprendre certaines informations. Par exemple, Zhang Sanyi veut acheter des chaussettes, donc j'ai cliqué sur beaucoup de toutes. j'étais intéressén un jeu dans les deux premiers jours. J'ai cliqué sur des jeux. Il peut généralement, le nombre de fois que le jeu n'est pas bon avec des chaussettes, mais il est évident que le comportement du jeu clique est maintenant plus proche. Il cliquera la probabilité de la plus grande chaussette de jeu. Si ce n'est qu'un genre simple que l'utilisateur a le plus courant de clic, la catégorie est clairement chaussette pour Zhang San, mais ces informations sont définitivement incorrectes.
Les premières années des ingénieurs d'algorithmes ne sont pas stupides et savent également que les caractéristiques des utilisateurs doivent se concentrer sur la recherche et s'appliquer au modèle. Mais il y a deux problèmes ici. Le premier problème est que le nombre de comportements de l'utilisateur est différent. Certains des comportements de l'utilisateur sont petits, mais les paramètres du modèle sont souvent corrigés. Le deuxième problème est que le modèle FM n'a pas de logique de traitement de temps, ne peut pas gérer la relation entre le temps et l'impact de cette relation.
En raison de l'existence de ces deux problèmes, les informations contenues uniquement aux États-Unis et aux informations CPromesse et nous devons également nous améliorer au niveau du modèle.
Comment l'améliorer, c'est vraiment simple, ne devrait pas dire que FM elle-même n'a pas de traitement de séquence, ce qui le rend appris de l'association logique. Quel modèle d'école est principalement académique? NLP, en raison de la déclaration dans l'ordre, qu'il s'agisse d'une analyse de texte ou de traduction, il est nécessaire d'examiner le contexte, de sorte que la PNL est la première fois à l'aide de modèles de temps RNN, LSTM et d'autres modèles de temps.
La première étape de la PNL devrait suivre, essayer d'appliquer des techniques et des idées de PNL avec le modèle proposé, produisant ainsi beaucoup de modèles. Ici, il s'agit d'une simple introduction à une vaste approche de un modèle de vaste équipé qui a été choisi beaucoup en deux ans.
Lundi, DINIntroduction aux articles de modèle DIN ont été rédigés la semaine dernière et si vous souhaitez voir, vous pouvez cliquer sur le port de livraison pour accéder.
Les pionniers sont proposés, les détails du modèle DIN d'alibaba
principes du modèle DINPensez dans l'ensemble et c'est très simple. Il est vraiment une structure d'un MLP intégré, mais il est juste dans lequel le module DIN est ajouté. C'est-à-dire une partie du cadre rouge ci-dessous.
Les données comportementales de l'historique des utilisateurs des marchandises1 à N Bacs, qui est l'historique des utilisateurs des biens1 pour les biens n, c'est-à-dire d'intersecter. Pour chaque section interagissant avec les utilisateurs, nous le calculons tous et le poids de l'élément candidat est actuellement prédit par l'unité d'activation. Ce poids peut également être interprété comme des similitudes, qui sont la similitude des utilisateurs interagissant des produits et des produits candidats. Ensuite, nous mettons toutes les marchandises afin de faire du poids de cette manière et de leur montrer à leur intégrée. La mise en commun intégrée est de retour et nous entrons enfin un résumé pondéré de la sorte pour entrer dans DNN.
Il existe deux essences, on est un problème que les piscines synthétiques peuvent résoudre davantage de comportements, car le total est fixé avecensemble. Deuxièmement, la droite ici est très importante à travers le fonctionnement SoftMax, en veillant à ce que tous les poids sont 1.
MardiLe deuxième modèle s'appelle transformateur, si DIN, il vient d'emprunter une certaine logique et des pensées de Le modèle Time NLP, le transformateur est presque effectué directement.
Le transformateur était à l'origine un modèle dans le champ NLP, en particulier dans la machine de traduction. Fondamentalement, il s'agit d'une combinaison d'encodeur et de décodeur, qui est une combinaison d'encodeurs et de décodeurs. Cela signifie, par les processus de cryptage et de décodage, d'apprendre des modèles de mappage entre deux cordes ou des relations internes.La structure de l'ensemble du modèle est indiquée ci-dessous:
La colonne laissée dans l'image ci-dessus est l'encodeur, ce qui signifie que l'entrée est transmise via une tête de participation multiple, un supplément et une ampli; Noté, etc. Enfin, l'entrée finale pour le décodeur de décodeur. Le décodeur effectuera l'opération de chiffrement pour la sortie, puis trouvera des informationsCroisement entre deux codes. Pour plusieurs têtes d'attention, ajouter et amplifier; Quelles normes sont faites dans ces sous-modules et n'ont pas beaucoup de choses pour créer des détails de déploiement complexes. Si vous êtes intéressé, vous pouvez lire le texte original de l'article.
Cela crée exactement une activité de cryptage et de décodage des entrées et des sorties, ce qui en fait un très bon effet dans le champ de traduction automatique. Pour les recommandations, il n'a pas besoin de prédire une chaîne, il suffit de prédire le CTR actuel. Par conséquent, il est principalement utilisé pour gérer cette caractéristique de la chaîne de comportement de l'utilisateur, à l'aide de la structure des transformateurs pour chiffrer et décoder les activités de cryptage et de déchiffrement dans la chaîne de comportement de l'utilisateur, avec une longueur fixe.
Ici, nous pouvons voir les scènes de transformateur recommandées dans le groupe américain, j'ai trouvé l'image dans le blog.
De l'image, on peut voir que la structure et la DIN n'ont aucune différence nécessaire, rien de plus de deux parties deChaîne de comportement des utilisateurs en deux parties. Après cela, de nombreuses méthodes intégrées ne sont plus comme une piscine synthétique mais le transformateur.
Résumé
Dans les scènes d'introduction, en particulier dans le centre commercial électrique, les données comportementales historiques de l'utilisateur sont très importantes et peuvent directement répondre directement aux avantages et aux intérêts de l'utilisateur. En particulier lorsque la séquence comportementale de l'utilisateur est long, il peut également réagir avec le comportement historique de l'utilisateur et modifier la consommation d'énergie, de sorte que la prédiction du modèle est plus précise. La page d'accueil de Taobao peut être très bien faite, peut toujours lancer une très nouvelle marchandise et une exploitation profonde et utilisez un utilisateur Caractéristiques comportementales.
DIN et BST (Transformer) ont été publiés en 18 et 19 ans et ses auteurs sont Alibaba, il est donc considéré comme comparer les recommandations de la frontière de capitale. J'ai introduit un petit partenaire qui souhaite participer à des algorithmes recommandés.