1. Aperçu des ensembles de données
Données Il existe 5 fichiers: films.csv, personne.csv, users.csv, commentaire.csv, notes.csv, le contenu spécifique de chaque fichier sera introduit ci-dessous.
II. Utilisation de la licence
Cet ensemble de données est uniquement destiné aux chercheurs, tels que relatifs aux violations personnelles, veuillez nous contacter. Nous allons activementPour révoquer toutes les données liées, merci!
L'utilisation de données nécessitent Doban à l'aide de protocole et d'ampli; Politique de confidentialité Douban
Ce jeu de données est limité à des fins de recherche, nous ne pouvons garantir l'exactitude des données et toute disponibilité de la scène. Pour les utilisateurs utilisant ces données, les conditions suivantes doivent être strictement conformes à:
jusqu'à ce que l'utilisateur ne puisse pas utiliser ce jeu de données pour toutes les transactions commerciales ou aucun revenu.
Les utilisateurs peuvent ne pas transférer des données sans être sous licence.
Lorsque vous utilisez l'ensemble de données, la source doit être déclarée.
Dans tous les cas, nous ne sommes pas responsables de la perte due à l'utilisation de ces données (y compris sans limitation de la perte de données ou des données incorrectes).
Format de données 1.Movie
Données de film avec un total de 140502 et le film avant 2019Il y en a 139129. Il y a 1371. Il y a 1373, dont 21 écoles, certaines données de champs libres, la description du champ est la suivante:
ID de film, correspondant Douban_Id
Nom: Nom du film: Alias
Acteurs: Couverture
Che: Adresse Couverture PhotoDirecteur: Directeur
Catégorie: Type
Official_Site: Adresse officielle
Zone: Pays de fabrication
Langues: Langue
version_date: Date de sortie
MINS: FINAL
IMDB_ID
DOBAN_SCORE: DOBAN_VOTES: DOBAN_VOS: DOBAN_VOS: DOBAN_VOS: DOBAN_VOTE: Double Sotes
Tags: Tag
Story: SLING DESCRIPTION
SLUG: URLS sont cryptés, ignorés
an
acteur_ids: acteur et personne_id respectivement, de nombreux acteurs à travers "|" Segment d'icône, format "A: id | Pornstar B: id";
drector_ids: réaction du réalisateur et de la personne_id, de nombreux administrateurs ont utilisé "|" Segment d'icône, format "Directeur A: ID";
2. Format de données
Fichier La personne n'inclut que les acteurs et DOI DOIn, n'incluez pas les données utilisateur de Douban, un total de 72959 noms, dont 10 champs, chaque fonctionnalité correspondra à un nom, aucune donnée personnelle n'a été filtrée, chaque champ décrit comme suit:
PERSON_ID: ID de célébrité
Nom: NAM Acteur
Sexe: SexeNom_fr: Ajouter Anglais Nom
Nom_z: Ajouter le nom chinois
Naissance: AnniversaireLieu de naissance: Lieu de naissance: Constellations: Constellation Professionnel: Occupation
Biographie: Introduction, seules 15 135 personnes célèbrent avec des données de profil.
3. Plus de format de données
Data.Csv est le niveau d'informations de configuration des utilisateurs de Douban, principalement avec des commentaires et des scores, ajoutez les données d'utilisateur 639125, contenant deux champs ( Supprimé), champs spécifiques comme suit:
codé MD5, déduction de la poignée
user_nickname: remarque pseudo
user_avatar: remarques avatars utilisateur user_url: remarque l'URL de l'utilisateur (supprimé)4. Format de données Q
Données de point obtenues à partir de données de commentaire, car le rabat BEA est limité si vous vous connectez à l'utilisateur, vous recevrez jusqu'à 320 commentaires. de chaque film, obtenez finalement 600 384 données sur la considération des utilisateurs, impliquant 68471 films et le score de 1 à 5 points (1- très pauvre, 2 - Pays, 3 - OK, 4-Recommandations, 5 suggestions), un total de 5 écoles, Les formats de données sont les suivants:
Taux: Classement d'ID
user_md5: user_id codé MD5
MODI_ID: ID de film, correspondant à Doban_IDNoter: Noter
Rank_Time: Point
5.
Considérant les données totales 4428475, 638963 MODIF 68887 Les utilisateurs comprennent 7 écoles, tous les champs sont les suivants:
] ID
user_md5: user_id crypté md5
MODI_ID: ID de film, correspondant DOUBAN_ID
Contenu: Contenu ContenuVote: Commentaires: Noter: Commentaires avec points
Commentaire
quatre. Adresse de téléchargement
Exemple de données 1000 Données sur chaque fichier, Adresse de téléchargement: MOVIEDATA_SMALL. Tar.gz. Ensemble de données complètes avec 1G +, les utilisateurs doivent cliquer sur le lien après avoir cliqué sur: MOVIEDATA-10M.TAR.GZ, la méthode de revenu du mot de passe est la suivante (non régulière de remplacement):
]
à la recherche de Wechat "code petit" compte public "et cliqué sur l'attention;
Répondez derrière l'ensemble" Série de données de film "pour obtenir un mot de passe.
Les données de collecte n'est pas facile, de comprendre préliminaire combien de personnes utilisent ces données , s'il vous plaît laissez l'utilisateur n'exécutera pas deux renversements! "Mieux vaut approuver les poissons que de fournir à tous ceux-ci." Intéressé à la technologie Repot, vous pouvez accéder au code source du projet d'auteur de l'auteur de GitHub. Si les données sont utiles pour vous, vous pouvez peut faire attention au logement de la comptabilité publique, avec la collecte de données, le traitement des données, les données de nombreux postes tels que la modélisation, votre attention est notre meilleur support, en plusVous pouvez cliquer sur l'étoile de Github ci-dessous.
Il existe également des utilisateurs qui ont également des haricots publics publiquement.Cela fournit un lien inférieur pour tout le monde et fournit des ensembles de données de films Movielens.Adresse de téléchargement:
Film Douban Commentaire Bref Data Set
DOBAN MODIO SCORE DE DONNÉESMOVIELENS-DataSet
- Six.Tributant
DIWEI LIU
YINA XU