À un niveau supérieur, Gensim est un outil pour découvrir des structures sémantiques en vérifiant les modes de vocabulaire (ou des niveaux plus élevés, tels que des déclarations ou des documents).
Gensim prend ceci à travers Corpus & MDash; & mdash; Un ensemble de documents texte, vecteurs représentant le texte créé dans corpus. Après cela, la représentation vectorielle du texte peut être utilisée pour les modèles de formation et de MDash; & mdash; C'est un algorithme de créer différentes données de texte (contenant une sémantique).Ces trois concepts sont la clé pour comprendre le mode de fonctionnement de Gensim, alors passons un moment à expliquer leur signification. Dans le même temps, nous expliquerons chaque concept à travers un exemple simple.
Premièrement, Corpus
Un corpon est un ensemble de documents numériques (une collection de documents numériques). Cette collection est une entrée Gensim, qui déduirea la structure ou le thème du document. La structure potentielle est altéréeDe Corpus peut être utilisé pour assigner le thème des nouveaux documents dans le précédent Corpus n'existe qu'à la formation. Pour cette raison, nous mentionnons également cette collection appelée Corpus Training.
Ce processus ne nécessite pas d'intervention artificielle (telle que manuellement à l'onglet) & MDash; & mdash; Parce que la classification du thème n'est pas surveillée (https://en.wikipedia.org/wiki/unsupervised_learning).
Pour l'auteur Par exemple, il y a 12 documents, chaque document n'a qu'une commande:
Ce n'est qu'un corpus petit en fait, vous pouvez Remplacez d'autres corpus, tels que: articles sur WECHAT, Weibo Bowen ou Titre de la nouvelle.
Après avoir collecté Corpus, une série de processus pré-textes sont généralement effectués. Par exemple, en raison de la simplicité, l'auteur ne supprime que l'annulation de mot dans le corpus et une seule fois en corpus. Dans ce processus, l'auteur effectuera une activité de mots, séparez le document dans une liste de vocabulaire (dansCe cas, utilisez l'espace comme séparateur).
Avant de poursuivre, l'auteur souhaitait relier chaque vocabulaire dans le corpus à un ID entier unique. Nous pouvons utiliser gensim.corpora.dictionary cette classe est terminée et ce dictionnaire détermine le vocabulaire dans le corpus traité précédemment.
Dictionnaire = cora.dipedary (trapped_corpus)
Imprimer (
Dictionnaire (14 jeton unique: [& lsquo; d'innovation , &&&; && ;; Connaissances universelles, & lsquo; && ;; L ;; Vocabulaire est dans ce dictionnaire. Pour le corpus plus grand, le dictionnaire contiendra des milliers de vocabulaire, grand.
Méthode de la deuxième méthode de représentation du document . Une manière est de représenter chaque document comme vecteur, oui de nombreuses méthodes différentes pour créer des performances vectorielles, l'un d'entre eux est un modèle de sac de mots.
Dans le modèle de phrase, chaque talentEst-il indiqué par un vecteur du nombre de fréquences contenant chaque mot dans le dictionnaire. Exemple: pour un dictionnaire contenant du vocabulaire [& lsquo; Coffee, 's, Le lait est. Candy's's's's cuillère), une chaîne de caractères. Cuillère cuillère café lait. Les documents peuvent être exprimés avec un vecteur de [2, 1, 0, 0], dans lequel les éléments du vecteur (dans l'ordre) correspondent au "café", "lait", "sucre" et "cuillères" apparaissent dans des documents. La durée du vecteur est le nombre de vocabulaire dans le dictionnaire. Une caractéristique principale du modèle de phrase est qu'elle ignore complètement l'ordre de mots dans le document de cryptage, qui est la source du modèle de phrase.Il y a 14 vocabulaire différents dans notre traitement avec corpus, ce qui signifie que chaque document dans le manuel sera exprimé par ce modèle de phrase vectoriel 14 dimensions, nous pouvez utiliser le dictionnaire pour convertir les documents après 14 vecteur. Par conséquent, nous pouvonsVocabulaire médical correspondant à ces identifiants: Imprimer (Dictionary.Token2ID)
{& Lsquo; L'innovation requise: 0, ' Business & ASQ ...: 1, & lsquo; Le score de la connaissance .: 2, & lsquo ;: 3, & lsquo; ;: 4, & lsquo; Finance's: 5, & Lsquo; Analyse de n'importe quoi :.:. :: 7, & lsquo; Manager's: 8, & Lsquo ;: 9, & Lsquo; ; Clé: 1. & lsquo; Entreprise ':: 11,'智能 R ;;;: 12, & lsquo ;: 13}
, supposons que nous voulions quantifier la déclaration de "carte de connaissances lors de la conversion des entreprises" (veuillez noter que cette déclaration n'apparte pas doit être le corpus d'origine dans Le corpus d'origine. Nous pouvons utiliser la méthode Doc2bow de Dictionary pour créer une phrase pour cette commande. La méthode renvoie une représentation clairsemée du numéro de vocabulaire:
d'abord dans chaque tuple élément correspondant au vocabulaire correspondant au vocabulaire correspondant au vocabulaire ID TDictionnaire Rong, le deuxième élément correspond au nombre de vocabulaire.
Veuillez noter que "" "" Boost "apparaît dans le manuel d'origine, de sorte qu'ils ne seront pas inclus dans les performances vectorielles nouvellement créées. Notez également que le vecteur ne contient que le vocabulaire qui ne contient que le vocabulaire Apparaît dans le document. Parce qu'un certain document ne contient que quelques mots dans de nombreux mots dans le dictionnaire, il n'implique pas de vocabulaire quantitatif pour économiser de l'espace.
Nous pouvons convertir l'ensemble de la bibliothèque primitive en liste de vecteur:
Veuillez noter que bien que cette liste soit entièrement stockée en mémoire, la plupart des scripts d'application, vous avez besoin de plusieurs solutions complètes (plus de solutions extensibles). Heureusement, Gensim permet à Gensim Permet aux boucles de jouer en ligne. Les auteurs derrière la conversation et. Mardi, modèle
Nous avons maintenant des dépenses de test quantifiées, nous pouvons commencer à utiliser des modèles pour les convertir. Ils tOh, en utilisant des modèles comme un terme abstrait, faisant référence à la transition d'un document à un autre. Dans GENSIM, les documents sont indiqués sous forme de vecteurs. Le modèle peut donc être considéré comme un commutateur entre deux espace vectoriels. Apprenez les détails de cette conversion de la bibliothèque de langues de formation.
Un exemple de modèle simple est TF-IDF. Le modèle TF-IDF sera contenu dans les poches de mots (sac - de la conversion instantanément complète en espace vectoriel, dans laquelle la quantité de fréquence est pondérée en fonction de la justice relative de chaque mot dans le corpus.
C'est un exemple simple. Laisser Les États-Unis initialisent le modèle TF-IDF, former sur le manuel de test, puis la chaîne "La technologie de la carte de connaissances est une arme de transformation de bus" pour transférer le changement:
Modèle TF-IDF Renvoie une liste de groupe à nouveau et le premier élément de chaque tuple est l'ID de vocabulaire et le deuxième élément est la valeur disponible du poids TF-IDF. Notez que la valeur est égale au même poids.G avec ID (10 dans la bibliothèque de langues) ID inférieur correspond à la «conversion» (2 fois dans la bibliothèque de langues de formation) Valeur de poids.