I. Retour
Écrivez un article sur l'analyse émotionnelle des données émotionnelles Douban Données de données courtes, les données utilisées par l'article sont difficiles, l'auteur a commencé à collecter des données de commentaire de film avec 44,28 475 bandes , après avoir retiré les données NAN, laissé 4 667,04. À cette époque, il a été considéré comme 4,16 millions de données, c'était vraiment un peu difficile. Après tout, il n'y a pas de bon serveur pour exécuter le modèle. À cette fin, certaines opérations sont nettoyées et filtrées, y compris des longueurs à long terme, la retransmission et enfin 358.2251. Le score du film est porté par les utilisateurs, avec un score 1-5 étoiles (1- très pauvre, 2-Pare, 3-OK, 4 suggestions recommandées, 5), donc l'auteur final a divisé les commentaires en commandant trois: 1-2 étoiles stars négatives (700572), 3 étoiles sont neutres normales (1215485), 4-5 étoiles avancées (1666194). Enfin, l'auteur n'a pas pris d'échantillons de données, en utilisant directement plusieurs couches MNB et la précision moyenne et récupérée de chaque classe près de 0,6. Efficace pas tMaintenant, mais ça ne peut pas être très mauvais. Après tout, il a dépassé 0,5.
À la Journée nationale, j'y ai pensé. Je ne pensais pas trop mal. Après son retour, j'ai regardé plus près le jeu de données. Je trouve que la différence entre le jeu de données n'est pas très bonne. La raison principale est toujours le score dans 2 étoiles, 3 étoiles, 4 étoiles et de nombreuses données similaires, le score n'est pas le même, tel que
- "drôle, hahahahahahahahahaha" est divisé en 2 étoiles,
"Hahahaha hilarant notes" est 3 étoiles
"Nice Hahaha" Classing 4 étoiles
Nouvelles données de sonde
En premier lieu, car c'est construire un ensemble de données, bien sûr, il est préférable d'obtenir la substance quelles sont des données plus élevées, la qualité? Il y a une phrase dans les caractéristiques de travail, de données et d'utilisateurs déterminent la limite supérieure de l'apprentissage de la machine et MLes options et les algorithmes s'approchent simplement de ce plafond. Cela signifie, même si l'algorithme involontaire, la qualité des données est allumée, le résultat obtenu par l'algorithme sera également. Avec cette idée, peu importe combien, d'abord, dans le cas du genre, une étoile est négative, 3 étoiles à la neutralité, 5 étoiles à positive. De cette manière, la distinction entre les données est allumée. Après avoir utilisé la formation MNB, le résultat est de près de 0,68, l'effet est meilleur que le précédent 0,6, mais les données ne sont pas pures, la différence n'est pas claire, principalement en 3 étoiles, certaines ont des tendances négatives, certaines ont une tendance positive, cela aussi conduit à une formation modélise et à un effet inefficace. À ce stade, la quantité de masse de données de chaque classe est également relativement grande, la négative négative de 24W, positive 51W, neutre est de 1,17 million, et la distance est trop grande.
Considérant que le prochain modèle d'apprentissage a été construit de manière indépendante, la quantité de données a également été abaissée tout en améliorant la qualité des données. Pour le mettre d'une manièreFranchement, cela signifie un échange numérique, plus de données et de mess n'est pas une bonne chose. S'il y a des données de haute qualité, même si les données sont faibles, elles sont également indiquées, par exemple, seules que la quantité de données est plus. Après avoir pensé trois, l'auteur a fait la pratique la plus extrême, à l'origine trois catégories, directement en deux catégories, choisit négativement 1 étoile commentaire, les commentaires 5 étoiles sont positifs. Donc, depuis que vous confiez certainement. Comment le résultat est, à côté des résultats.
III. Le résultat de l'exploration
ci-dessus est une idée, l'objectif est de faire la différence entre les données de données chaque couche plus claire. Après cette idée, l'auteur a vérifié plus loin. 1 étoile 244912 Données, 517 7218 bandes, plus de distances que deux fois et l'ensemble de données n'est pas équilibré pour la deuxième couche. Par conséquent, l'auteur a construit des ministères de formation et des machines à tester, pratiquant des échantillons positifs et négatifs et 24912 colonnes sous forme de modèles de tonalité positive. Il faut 30 minutes 3 LLe précédent MNB fonctionne, il faut environ 16 minutes pour enlever 2 étoiles et 4 étoiles. Aujourd'hui, maintenant 440 000 données, le temps de formation de vérification croisée est d'environ 5 minutes, le résultat suivant
-1 0,86 0,88 0,87 22073
1 0,88 0,85 0,87 21927
- Précision 0.84 44000 ] Macro AVG 0,87 0,87 0,87 0,87 44000
AVG Poids 0,87 0,87 0,87
Heure du processeur: 56,4 MS Utilisateurs, SYS: 2.12 MS, Total: 58,6 MS
Temps mural: 60,5 ms
Pour les kits d'essai, les résultats de la prédiction sont également très bons, la moyenne de la moyenne de 0,86 montre la distribution du kit de test et l'ensemble de formation est presque identique.
- 1 0,85 0,88 0,87 24912
1 0,88 0,85 0,86 24912
Précision 0.86 49824
- MACRO AVG 0,86 0,86 0,86 49824
Il s'agit simplement d'un démarrage, un modèle simple, n'ajoute aucun processus de réglage des paramètres, simplement pour créer des ensembles de données. Avec ce résultat, c'est vraimentLes données de recherche très satisfaisantes et les prochaines données de la classification de texte chinois ne suffisent pas!
quatre. Conclusion
Auteur d'écrire cet article, principalement pour enregistrer le processus de construction de données séparément. La pratique prouve que autant de données, que possible des données, mais plus la différence entre les données. L'augmentation des données est un modèle qui est définitivement un brocart, peut rendre la capacité de généralisation du modèle bien amélioré, mais la distinction est également importante pour la précision du modèle. Si vous ajoutez des données plus salissantes, pas aussi bonnes que celles-ci. OK, car les données sont prêtes, le modèle suivant est également agitant, bien que la couche multicouche soit devenue deux catégories, mais l'ensemble peut encore pratiquer, c'est-à-dire une pratique personnelle, moins d'étiquettes peuvent venir. À propos de l'analyse émotionnelle, l'auteur continuera d'utiliser différents algorithmes d'analyse et de suivi pour le servir, juste une vraie façon! Si vous avez besoin de données, veuillez faire attention au nombre de codes]Il a déclaré, répondant à la «définition de données d'analyse émotionnelle».
Jeudi.Ferférences
Doban Diet Catégorie: http://moviedata.csuldw.com
http://www.csullw.com
https: // scikit-learn.org