Skip to main content

1. Aperçu des ensembles de données


Ce jeu de données a été recueilli dans le film Douban, les données du film et de l'étoile collectées au début de l'août 2019, des données d'évaluation des films (utilisateurs, scores, Commentaires) 7,45 millions de données recueillies au début de septembre 2019, dont 140 000 films, 70 000 acteurs, 630 000 utilisateurs, 4,16 millions de films, 4,42 millions de films, ce jeu de données n'est compensé que pour le jeu de données de film public national. Les données ont été nettoyées par l'hygiène d'origine, peuvent être utilisées pour des recommandations émotionnelles, des questions et des réponses QA, des cartes de connaissances et d'autres domaines.

Données Il existe 5 fichiers: films.csv, personne.csv, users.csv, commentaire.csv, notes.csv, le contenu spécifique de chaque fichier sera introduit ci-dessous.

II. Utilisation de la licence


Cet ensemble de données est uniquement destiné aux chercheurs, tels que relatifs aux violations personnelles, veuillez nous contacter. Nous allons activementPour révoquer toutes les données liées, merci!


L'utilisation de données nécessitent Doban à l'aide de protocole et d'ampli; Politique de confidentialité Douban

Ce jeu de données est limité à des fins de recherche, nous ne pouvons garantir l'exactitude des données et toute disponibilité de la scène. Pour les utilisateurs utilisant ces données, les conditions suivantes doivent être strictement conformes à:

jusqu'à ce que l'utilisateur ne puisse pas utiliser ce jeu de données pour toutes les transactions commerciales ou aucun revenu.
Les utilisateurs peuvent ne pas transférer des données sans être sous licence.

Lorsque vous utilisez l'ensemble de données, la source doit être déclarée.


Dans tous les cas, nous ne sommes pas responsables de la perte due à l'utilisation de ces données (y compris sans limitation de la perte de données ou des données incorrectes).




Format de données 1.Movie


Données de film avec un total de 140502 et le film avant 2019Il y en a 139129. Il y a 1371. Il y a 1373, dont 21 écoles, certaines données de champs libres, la description du champ est la suivante:


ID de film, correspondant Douban_Id

Nom: Nom du film
: Alias

Acteurs: Couverture

Che: Adresse Couverture Photo
Directeur: Directeur
Catégorie: Type
Official_Site: Adresse officielle
Zone: Pays de fabrication
Langues: Langue
version_date: Date de sortie
MINS: FINAL
IMDB_ID
DOBAN_SCORE: DOBAN_VOTES: DOBAN_VOS: DOBAN_VOS: DOBAN_VOS: DOBAN_VOTE: Double Sotes
Tags: Tag
Story: SLING DESCRIPTION
SLUG: URLS sont cryptés, ignorés
an
acteur_ids: acteur et personne_id respectivement, de nombreux acteurs à travers "|" Segment d'icône, format "A: id | Pornstar B: id";
drector_ids: réaction du réalisateur et de la personne_id, de nombreux administrateurs ont utilisé "|" Segment d'icône, format "Directeur A: ID";


2. Format de données


Fichier La personne n'inclut que les acteurs et DOI DOIn, n'incluez pas les données utilisateur de Douban, un total de 72959 noms, dont 10 champs, chaque fonctionnalité correspondra à un nom, aucune donnée personnelle n'a été filtrée, chaque champ décrit comme suit:

PERSON_ID: ID de célébrité

Nom: NAM Acteur

Sexe: Sexe
Nom_fr: Ajouter Anglais Nom

Nom_z: Ajouter le nom chinois

Naissance: Anniversaire
Lieu de naissance: Lieu de naissance: Constellations: Constellation Professionnel: Occupation
Biographie: Introduction, seules 15 135 personnes célèbrent avec des données de profil.

3. Plus de format de données



Data.Csv est le niveau d'informations de configuration des utilisateurs de Douban, principalement avec des commentaires et des scores, ajoutez les données d'utilisateur 639125, contenant deux champs ( Supprimé), champs spécifiques comme suit:



codé MD5, déduction de la poignée

user_nickname: remarque pseudo

user_avatar: remarques avatars utilisateur user_url: remarque l'URL de l'utilisateur (supprimé)

4. Format de données Q


Données de point obtenues à partir de données de commentaire, car le rabat BEA est limité si vous vous connectez à l'utilisateur, vous recevrez jusqu'à 320 commentaires. de chaque film, obtenez finalement 600 384 données sur la considération des utilisateurs, impliquant 68471 films et le score de 1 à 5 points (1- très pauvre, 2 - Pays, 3 - OK, 4-Recommandations, 5 suggestions), un total de 5 écoles, Les formats de données sont les suivants:


Taux: Classement d'ID

user_md5: user_id codé MD5

MODI_ID: ID de film, correspondant à Doban_ID
Noter: Noter

Rank_Time: Point



5.

Considérant les données totales 4428475, 638963 MODIF 68887 Les utilisateurs comprennent 7 écoles, tous les champs sont les suivants:



] ID
user_md5: user_id crypté md5

MODI_ID: ID de film, correspondant DOUBAN_ID

Contenu: Contenu Contenu
Vote: Commentaires: Noter: Commentaires avec points
Commentaire


quatre. Adresse de téléchargement



Exemple de données 1000 Données sur chaque fichier, Adresse de téléchargement: MOVIEDATA_SMALL. Tar.gz. Ensemble de données complètes avec 1G +, les utilisateurs doivent cliquer sur le lien après avoir cliqué sur: MOVIEDATA-10M.TAR.GZ, la méthode de revenu du mot de passe est la suivante (non régulière de remplacement):
]
à la recherche de Wechat "code petit" compte public "et cliqué sur l'attention;

Répondez derrière l'ensemble" Série de données de film "pour obtenir un mot de passe.


Les données de collecte n'est pas facile, de comprendre préliminaire combien de personnes utilisent ces données , s'il vous plaît laissez l'utilisateur n'exécutera pas deux renversements! "Mieux vaut approuver les poissons que de fournir à tous ceux-ci." Intéressé à la technologie Repot, vous pouvez accéder au code source du projet d'auteur de l'auteur de GitHub. Si les données sont utiles pour vous, vous pouvez peut faire attention au logement de la comptabilité publique, avec la collecte de données, le traitement des données, les données de nombreux postes tels que la modélisation, votre attention est notre meilleur support, en plusVous pouvez cliquer sur l'étoile de Github ci-dessous.





Il existe également des utilisateurs qui ont également des haricots publics publiquement.Cela fournit un lien inférieur pour tout le monde et fournit des ensembles de données de films Movielens.Adresse de téléchargement:

Film Douban Commentaire Bref Data Set

DOBAN MODIO SCORE DE DONNÉES
MOVIELENS-DataSet

    Six.Tributant


    DIWEI LIU
YONG GAO
YINA XU

Sujets

Catégories