Statistiques de fréquence et de python chinois

Segments de Chinois, coupant des déclarations chinoises à une phrase séparée. L'anglais utilise des espaces pour séparer les mots et les caractères chinois chinois parfois pas de même sens, alors les mots chinois sont beaucoup plus difficiles que l'anglais.

De la plupart du temps utilisé pour gérer la langue naturelle, utilisez des scripts:
Optimiser la recherche, extraire des mots-clés (Baidu Index)
Analyse sémantique, Smart Questions et Réponses Systems (Systèmes de service clientèle)
Il n'y a pas de communication texte Structures de contenu, telles que l'information sociale (blogs de hotline)
clusters de texte, en fonction du contenu du contenu, la classification (classification industrielle)

II. Bibliothèque de classification

La bibliothèque chinoise de Python a beaucoup, populaire: JIEBA (Président)

Thulac (Tsinghua University Traitement Langue naturelle et laboratoire Calculez les humaines sociales)
Ordinateur et North Ki University PhoneNHI PKUSEG Beijing Learning Group)
SnowlP
Pynlpil
corenlp
PYLP

Les trois premiers sont souvent vus, principalement faciles à utiliser / le rapport / la capacité exacte de la marque ne sont pas mauvais. J'utilise personnellement toutes sortes de précieux (accès précoce), récemment utilisé PKUUSEG et utilisez les deux.

1. Introduction

"Triba" du chinois: des composants d'exécution de Python Meilleur

(1) Supporte trois modes de:
Mode précis, essayez de couper la phrase la plus précise, conformément à l'analyse de texte;
Mode complet, mettez toutes les phrases dans les mots numérisés de mots et la vitesse est très rapide, mais ne peut pas résoudre l'ambiguïté;
Mode moteur de recherche, sur la base d'un mode précis, des mots longs séparés, améliorez la vitesse de rappel, les extrémités du moteur de recherche correspondant.
(2) Support des pièces traditionnelles
(3) Support de dictionnaire personnalisé
2. Exemple

Nous utilisons la beauté de la ChineJingdong Trade Center pour voir l'influence des mots d'attache. Si vous n'installez pas la bibliothèque à partir de jonction, vous devez entrer dans le pip pour installer Jieba dans la ligne de commande et vous pouvez commencer le trajet après l'installation.

Données de commentaire terminées dans le fichier Meidi_JD.c dans le fichier SV, la bibliothèque correspondante est entrée avant de lire les données. Étant donné que la méthode de cryptage de texte ou le fichier chinois est une autre option de codage GB18030, parfois UTF-8, GB2312, Auto-test GBK.
Source:
# Entrez la bibliothèque associée
Entrez le panda comme PD
Entrer JIEBA
# Lire les données
DATA = PD.READ_CSV ('MediI_JD.CSV', code chimie = 'GB18030')
# Voir données
Data.Pahead ()
Source:
# 生成

Data ['Cut'] = Data ["Essai"]. Applicable (Lambda X: Liste (Jieba.cut (X)))

Data.Head ()

Nous ne passons ici que une ligne de la liste de mots en chinois . Si vous voulez créer un mot, vous pouvez le changer.

Source:

Data ['Cut'] = Data ['Commentaire']. Applicable (Lambda X: liste (Set (Jieba.cut (X))))

3. Dictionnaire personnalisé

Après les mots précédents, nous pouvons voir qu'on le nombre de mots est séparé. dans des caractères moyens séparés, tels que:

Source:

Imprimer (données [«Coupe»]. LOC [14])

Sortie:

['Très "," Bon "," très "," bon "," bon "," très "," bon "," bon "," bon "" très "," bon "," très "," bien "," Très ', «bon»,' '' Bien que Jieba ait la capacité d'identifier de nouveaux mots, mais cela peut assurer un ratio de haute précision que. Dictionnaire personnalisé utilise un mot, pour m'exprimer pour ajouter "très bon" et enregistrer le fichier dict.txt, commençons par des dictionnaires personnalisés!

Source:

Données ['Cut'] = Données ['Commentaire']. Appliquer (Lambda X: Liste (Jieba.cut (X)))
Data.Pailles ()
.

Sortie:
["très bon", "très bon", "très bon", "très bon", "très bon", "Très bien »,« très bon »,« très bon »,« très bon »,« très bon »]
maintenant, suivez les bons mots selon notre plan! très bien!

4. Lancé de

Nous verrons que certains mots ne sont vraiment pas grands, tels que la ponctuation, UM, Ah, attendant, cette fois, nous devons détruire à partir du type Supprimer les mots. Nous devons d'abord avoir une phrase de désactivation, vous pouvez personnaliser la bibliothèque à partir d'Internet, nous utilisons ici le fichier de téléchargement en ligne à partir d'être désactivé stopwordscn.txt.
# 读读停用停用停用停用停用数据停用停用停用停用数据停用数据数据数据停用数据
Statewords = pd.read_csv ('stopwordscn.txt', cryptage = 'utf8', nom = ['stopword' ], index_col = false
Forords. Tête ()
Ensuite, nous pouvons supprimer les mots désactivés lorsque le code est modifié correctement:

Source:

# Stop_list = stop_list = Stop_list = stop_list = stop_list]A.CUT (x) Si je ne suis pas dans stop_list])

Data.Head ()

4. PKUSUG
PKUSUG est facile à utiliser, soutenez le fragmenté école, améliorer l'effet de précision du mot.
1. INTRODUCTION

PKUSUSEG a certaines caractéristiques:

des champs multiples. Contrairement aux outils génériques précédents, ce ministère s'est engagé à fournir des modèles de formation pré-personnalisés pour des données dans différents domaines. En fonction des caractéristiques du texte du texte, les utilisateurs peuvent choisir librement différents modèles. Nous soutenons actuellement la zone de nouvelles, les manuels de réseau et les modèles de formation précédents dans le domaine des mélanges, et il vise également à introduire des domaines plus détaillés dans un proche avenir. Méditerranée, tourisme, brevets, romans, etc.
précision de plus. Par rapport aux autres outils de mots, PKUSUSEG peut atteindre une précision spécifique lors de l'utilisation de données de formation et de données d'inspection similaires.
Soutenir les modèles de formation utilisateur. Support nLes utilisateurs utilisent de nouvelles données d'annotation à former.

PKUSUSEG ne supporte actuellement que Python3. Actuellement, il existe de nombreuses bibliothèques principales pour démarrer Python2. Les versions Python3 doivent être utilisées. Si vous devez utiliser Python2 pour créer un environnement virtuel à construire.

2. Exemple

L'utilisation de PKUSUSEG est un peu différent et PKUSUSEG doit créer une version modèle pour utiliser la méthode Express. Comme mentionné précédemment, PKUSUSEG soutient le modèle de charge et de formation, augmentant de manière significative la précision de la lente, en particulier pour les ensembles de données de zone segmentée et voir les détails de la documentation Github.

Entrez PKUSEG

# avec le modèle de charge de configuration par défaut

Seg = pKuseg.pkuseg ()
# DETV
Data ['Cut'] = Data ['Commentaire']. Appliquer (Lambda x: [i pour i dans seg.cut (x) si je n'en ai pas à stop_list])
Data.Head ()

.

3. Dictionnaire personnalisé

, PKUSUG prend également en charge les dictionnaires personnalisés pour améliorer les degrésCorporant la bourse.
Source:
# Utilisez le modèle par défaut et utilisez des dictionnaires personnalisés

Seg = pkuseg.pkuseg (user_dict = 'déc.txt')

# 分
Data ['Coupe'] = Données ['commenter']. Appliquer (Lambda X: [i pour i dans seg.cut (x) si je n'en ai pas à stop_list])

Imprimer (données ["Coupe"]. LOC [14])

]

] 4. Modèle de formation personnalisé
En mode magnétique, les utilisateurs doivent télécharger le modèle avant la formation. PKUSEG fournit trois types différents de modèles de formation de données.
MSRA: Formation du modèle MSRA (presse). Adresse de téléchargement
CTB8: Dans CTB8 (Nouvelles et modèles réseau de texte mixte du texte). Téléchargez l'adresse
Weibo: Modèle de formation sur Weibo (texte texte texte). Adresse de téléchargement
MixedModel: Modèle général des ensembles de données de mélange de formation. Ce modèle est inclus avec PIP Package. Téléchargez la source

Source:

# Après le téléchargement, copiez le chemin du dossier
File_Path = '/ Utilisateurs / Jan / AnaCondA3 / LIB / Python3.6 / Site-Packages / PKUSUG / CTB8 '
# Chargement d'autres modèles de pré-entraînement

SEG = PKUSUG.PKUSUG (MODEL_NAME = FILE_PATH)

Texte = SEG.CUT (' Jingdong Centre commercial fiable, acheter, vous inquiéter, soyez assuré, repos assuré! ')

5. Décrivez la vitesse différentielle des bus pour simple et aucune comparaison de performance, comme un mot et un contenu environnemental.
1.5 MB / SEC en mode intégral 400 KB / S en mode par défaut Environnement de test: Intel CPU (R) CORE (TM) I7-2600 @ 3.4GHz; "BESIE" .TXT Par rapport à PKUSUG, choisissez JIEBA, THULAC et des sacs à outils d'autres représentants nationaux et comparent les performances de PKUUSG. Ce qui suit est le résultat de la comparaison sur différents ensembles de données: Vue PKUUSEG sur la précision, le taux de rappel et le point F. Performance I Utilisez Jupyter Ordinateur portable pour essayer une solution simple. Source 1: %% Données Data ['Cut'] = Data ['Commentaire']. Exempleng (lambda x: [i pour i dans jieba.cut (x) si je ne suis pas dans stop_list]) Source 2: %% Cashit [ 'Coupe'] = Data ['Commentaire']. Applicable (Lambda X: [I Car i à Seg.Cut (x) Si je ne l'ai pas à stop_list]) Sorties: GBP: 2,54 s ± 3,77 ms chaque tour (moyenne ± STD. de 7 courses, 1 boucle chacune PKUSUSEG: 7,45 s ± 68,9 ms par tour (moyenne ± STD. de 7 fois à 1 boucle chacune Fruits de données, de PKUUSG supérieure à la durée des graines de grenade, bien sûr, PKUSUG fournit de nombreux processus pour effectuer des mots, des performances et des performances. Ici, nous apprendons essentiellement à marquer avec les bibliothèques Python et de nombreuses façons de faire des mots de fréquence statistiques. Nous allons combiner tous les mots ensemble pour créer des statistiques de données. Source: # Fusionner tous les mots mots = [] Pour connaître le contenu dans les données [«Coupe»]: mots.extend (DUN interneg) # Créer une boîte de données à partir de corpus = pd.dataframe (de, colonne = ["mot"]) corpus ['CNT'] = 1 # Paquet de statistiques G = corpus. Groupby (['mot']). AGG ({'CNT': 'Compter'). Arrangement_values ('cnt', ascendant = false) g ] Compteur = compteur (mots) # 打印高 Sortie: [ [ [ "Nice", 3913), 'Installation', 3055), ("BON", 2045), ("Beautiful", 1824), ("Acheter", 1634), («chauffe-eau», 1182), («Jolie», 1051), (Master », 923), ('USA, 894), (' Livraison ', 821)] 6. Terminer J'utilise personnellement les suggestions, si vous souhaitez recevoir rapidement rapidement des mots, vous pouvez utiliser la participation des mots cependant, si la poursuite exacte et spécifique Champ, le modèle de charge PKUSUSEG peut être sélectionné.De plus, Jieba et Thulac ne fournissent pas de modèle de formation pré-segment.Si vous souhaitez utiliser des modèles personnalisés pour utiliser des interfaces de formation, ils fournissent une formation sur les ensembles de données dans le domaine divisé et les modèles obtenus par la formation.

Sujets

Participe

Catégories

Outils de données