Skip to main content

Mots


Récemment, la série télévisée la plus populaire est "Qin Fu", après la diffusion du 1er décembre, a gagné une bonne réputation. Cependant, avec le nouveau drame, le jeu a provoqué une discussion féroce sur Internet. Non seulement la langue de bonne réputation a diminué, qui est assez haute vitesse et que le score de cinéma est également de 8,9 points, et il est tombé de 6,5 points maintenant ..
Bien que je ne voyais pas encore ce nouveau drame, j'ai apprécié de discuter de la Contenu des amis (principalement tout le monde a toujours discuté de ce film). Par conséquent, j'ai ouvert les données connexes de "Qin Fu Da" avec Python et analyse des vagues menées.

Collecte de données


La chose la plus importante avant que la femme soit difficile à mettre en œuvre, et la chose la plus importante avant d'analyser les données est "Collecte de données". Donc, j'étais prêt à gravir les données de notation courtes sur Douban et à quelques temps de commentaire Star et classement des étoiles.

environ TLa marque à l'escalade des données indique principalement le contenu suivant:

1) À propos de


第一页:https://movie.douban.com/subject/26413293/comments?status=P第二页:https://movie.douban.com/subject/26413293/comments?start=20&limit=20&status=P&sort=new_score第三页:https://movie.douban.com/subject/26413293/comments?start=40&limit=20&status=P&sort=new_score
Nous avons affiché des liens de page à la page 1- 3, nous nous conformons principalement à la loi, le Position de départ du commentaire, combien de commentaire de données est obtenue par représentation limitée. Observation: La différence de 3 liens est de commencer cela est différent. Lorsque nous allons renvoyer la page, nous devons simplement modifier les paramètres de démarrage.
2) À propos de la description anti-coupure

pour collecter les données de Dirlan, il est extrêmement facile de trouver un vrai commentaire courte. Mais ici, je dois expliquer que vous ne pouvez pas vous connecter pour gravir les données, mais cela ne peut être qu'une activité pendant un moment. Après un certain temps, vous découvrirez que vous êtes des reptiles. Par conséquent, vous devez vous connecter et apporter des cookies pour gravir les données. Si parfois vous ne savez pas ce que la tête est requise, que devriez-vous mettre, puis ajouter ajouter, attendez que vous ayez une période de synthèse.


Certaines personnes peuvent khVous savez où, ou vous le dire! Beaucoup de paramètres ci-dessous, si vous souhaitez apprendre la collection d'informations, ces paramètres représentent n'importe quoi, vous devez toujours avoir besoin de savoir. headers = { "Accept":"application/json, text/plain, */*", "Accept-Language":"zh-CN,zh;q=0.9", "Connection":"keep-alive", "Host":"movie.douban.com", "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36', "Cookie":'这里是你自己的cookie' }

Enfin, j'ai ajouté un peu: j'étais initialement prévu de mettre la peau "Qin Fu" dans Douban, tous grimpés comme des matériaux. Cependant, il n'y a pas de combinaison réussie pour tous les commentaires courts, une onde à trois fois, finalement augmentée à 500, bien sûr, je pense que c'est un type d'anti-suggestion de Douban, quantité maximale de courts commentaires sont 500 et je ne le fais pas il suffit de vous donner plus. (Si vous avez un grand Dieu, vous pouvez aller à la recherche)





Vache de données, une voie de régulation et une certaine distance entre les données est utilisée pour analyse . Par conséquent, "Nettoyage des données" est nécessaire avant l'analyse. Avant de nettoyer les données, nous devons simplement voir quelles données est.

Le résultat est le suivant:
df = pd.read_csv("final_all_comment.csv",index_col=0)df.head(10)
Un fait, les données sont encore très belles, commeNous avons toujours besoin de faire ce qui suit:
1) Supprimer la valeur de répétition

Nous pensons que si le «temps de commentaires» et le «contenu de commentaire» sont exactement les mêmes, il pense qu'il est Le même commentaire, il doit être supprimé.
2) Traitement du temps de commentaire
Parce que "Da Qin Fu" a été publié le 1 er décembre 2020, à la fin du 16 décembre, tous les deux commentaires de données sont certainement démarrés en décembre 20020,donc nous ne stockons que des données "dates" utiles (jour). Pour la deuxième fois, nous gardons uniquement les données "heures". print("删除之前的记录数:",df.shape)df.drop_duplicates(subset=['评论时间','评论内容'],inplace=True,keep='first')print("删除之前的记录数:",df.shape)
3) Commentaire sur le traitement STAR
Observez la page d'origine de l'étoile de commentaire, vous pouvez voir que toutes les étoiles ne sont pas affichées en numérique, mais avec des étoiles à la sortie avant, le code source de la page est affiché.
df["评论天数"] = df["评论时间"].str[8:-9].astype(int)df["小时"] = df["评论时间"].str[11:-6].astype(int) Correspondant au code source de la page, comment le regarde-nous?

Vous pouvez voir: 3 étoiles ont 30 ans et l'autre utilise ce type, le numéro 1 étoile est de 10, 2 étoiles. La quantité est de 20 ... Je suis très bon. Ce n'est pas génial, alors quand j'ai grimpé les données, j'ai été calculé après 10.
4) Contenu de commentaires de compression mécanique

Pour commenter, certaines personnes peuvent gérer ou numéroter des caractères, il y aura Un mot ou un mot, répétez plusieurs fois, alors avant que le mot ne soit effectué, il est nécessaire d'avoir des "roulements mécaniques comprimés". Voici un code de code que j'ai écrit auparavant, vous pouvez aller voir votre blog CSDN, avec une bonne explication.



Le résultat est le suivant:

Avec la fonction ci-dessus, nous pouvons appliquer cette opération à l'augmentation des données.

Visualisation des données def func(st): for i in range(1,int(len(st)/2)+1): for j in range(len(st)): if st[j:j+i] == st[j+i:j+2*i]: k = j + i while st[k:k+i] == st[k+i:k+2*i] and k<len(st): k = k + i st = st[:j] + st[k:] return st st = "我爱你我爱你我爱你好你好你好哈哈哈哈哈"func(st)

Comme indiqué: "Le mot n'est pas aussi bon que la table, la table n'est pas aussi bonne que la photo". Les données ont grimpé et crée enfin des images visuelles, il aura une compréhension claire de la loi derrière les données. Vous trouverez ci-dessous des données des aspects suivants. [douzième3]

Enregistrements enregistrés par Time-Way

Modifier la tendance du nombre de commentaires dans les 24 heures


Evaluation de la tarte def func(st): for i in range(1,int(len(st)/2)+1): for j in range(len(st)): if st[j:j+i] == st[j+i:j+2*i]: k = j + i while st[k:k+i] == st[k+i:k+2*i] and k<len(st): k = k + i st = st[:j] + st[k:] return stdf["评论内容"] = df["评论内容"].apply(func)
Toutes les commentaires de tous les 啥 ]
À propos des outils de données visuels, je n'ai pas besoin d'utiliser des pyecharts, je retourne toujours à l'original, en utilisant la bibliothèque matplotlib la plus primitive pour afficher la quanisation des données en ligne. Après tout, nous n'avons pas de programme complexe, plus le code est petit, mieux c'est.


    change au fil du temps

    Comme on peut le voir sur l'image: le nombre de commentaires courts a été dans la tendance à la hausse avant le 4 décembre, sur 4 mois 12 pics. La première description de l'article est cohérente. Le public a une attente plus élevée pour la pièce, mais après le 4 décembre, déclin soudainement du style de la falaise, explique que tout le monde est frustré par la mise à jour du drame.
    2) Changer les tendances en fonction de la quantité de commentaires dans les 24 heures

    J'écoute toujours certaines personnesRong la discussion de ce film, voyons le temps de tout le monde à poursuivre? Il est possible de voir à partir du tableau 24h / 24: 7-24 points le soir, les commentaires augmentent fortement, la plupart des gens sont de 6 heures, peuvent avoir un repas à 7 heures ou directement pendant la création d'emplois de la voiture, commencez une poursuite d'une journée. Il y a aussi une vague de 5 à 8 points ici, vous ne pouvez pas dormir? Je dois brosser la brosse le matin, puis aller au travail. Il y a encore deux périodes de temps: 10-11 matin, 12-15 midi, a certainement une partie importante de petits partenaires, touchant les poissons,

3) Classement de la tarte


Drame C'est bon, voir le public avec moins, c'est l'idée la plus intuitive du public.
1 étoile: très pauvre
2 étoiles

3 étoiles: OK

4 étoiles: proposé


5: De l'image ci-dessous: Les gens sont toujours très bas pour évaluer le film, 1 étoiles et 2 étoiles occupent essentiellement tout le tableau de cercle, ce qui signifie que le film n'est pas tout le monde. Recevoirconnaître.
4) Les gens commencient principalement certains
en fait, tout le monde est le plus grand point de débat du film ou joué en fait par Zhang Lu. Zhang Lu, âgé de 40 ans, a effectivement joué un garçon de 13 ans, puis partageant de bonnes nouvelles pour Zhao Ji, qui a joué avec Zhuzhu 36 ans, et ce rôle a été très sans levain. Beaucoup de gens taquinaient: ne peut pas se permettre aux acteurs?

Il y a aussi une partie des personnes, des terrains et des films, et si Lu Weiwei est son père, je suis prêt à quitter Qin Qinmate avec lui. C'est un jeune homme qui peut être dit?

"Le cuir Qin Fu" est la quatrième partie de la série de "Qin da Empires", anciennement appelé "Qin Skin Empire" et le changea en "Cuir Qin Fu ". Tant de personnes comparent ce dramatique et" Qin da Qin Empire "de 2009 pour satire le film.

Sujets

Catégories