Avant de dire ci-dessus, nous avons introduit le principe RAW des moteurs de recherche. Il y a un camarade de classe qui manquait ou inconnu, compte tenu du contenu de l'article précédent.
Lors de l'introduction du reptile, nous savons qu'après le chenille de Crawler est grimpé sur le contenu du site, il sera traité. La première chose à faire est de filtrer différentes informations de carte entre HTML, gardez uniquement le contenu Web le plus natif. Après cela, le programme extraire ce contenu de texte. Aujourd'hui, nous dirons la partie la plus importante de l'extraction de mots-clés - mots chinois.
Parmi de nombreuses langues dans le monde, les Chinois sont l'une des langues relativement spéciales. De nombreuses langues sont livrées avec des informations distinctes, telles que l'anglais, les machines d'apprentissage et les machines d'apprentissage. Apportez un espace entre la machine et apprendre séparément. Mais le chinois n'est pas comme ça, il n'y a pas de séparation entre les caractères chinois. Cela signifie qu'il n'y a aucun moyen de diviserTexte direct.
Alors, comment savons-nous que «la machine d'apprentissage» doit être divisée en machines et en apprentissage au lieu de machines et de machines et de machines? Cela nécessite un algorithme de mots chinois.
Les algorithmes de mots sont souvent utilisés principalement en deux catégories, un type basé sur les règles de la règle du tableau de mots. Un autre est un algorithme statistique et populaire après le robot et l'apprentissage profond. Nous partons d'abord du fait que l'algorithme de la règle est relativement compréhensible.
Le noyau de l'algorithme de la règle est une horloge de mots. Nous maintenons autant que possible de nombreux mots chinois. Lorsque vous coupez la déclaration, nous retrouvons chaque phrase dans la phrase. Si vous pouvez revenir, c'est vraiment un mot, puis divisez, sinon ce n'est pas marqué.
C'est bien compris, nous continuons à descendre.
Cependant, lorsque nous avons divisé la commande, il y a des chaînes, peut être divisée en fraisA avant ou vice versa. Dans différentes directions, les deux algorithmes similaires sont créés.
1. L'algorithme de correspondant positif
est très simple à l'algorithme correspondant maximal, nous essayons de trouver plus longtemps le plus longtemps possible. Supposons que le spectre de la Chine soit la longueur de mot la plus longue, puis nous commençons à chercher une table de chaque fois que le texte du texte. S'il est trouvé, il est clair que c'est un mot séparé. Si vous ne le trouvez pas, alors un peu, cherchez le premier N-1, le répéteur est donc rempli jusqu'à ce qu'il soit trouvé dans la table de mots.
À ce stade, nous avons continué à descendre de la position du match, et la peine entière a été complétée. L'ensemble du processus est très simple. Théoriquement, lorsque des lectures humaines, c'est dans cet ordre. Mais cet algorithme n'est pas parfait, caché dans le problème.
Pour donner un exemple le plus classique, supposons que la phrase actuelle soit "Nanjing Yangtze Bridge". Supposons que notre discours soit 5, puis le résultat de la coupeNotre premier est "Nanjing Yangtze River", et il n'y a pas de mot dans la table de mots, je vais donc couper le "maire nanjing" et la table de mots a vraiment ce mot, puis cette phrase entière sera divisée en deux parties: "Mayor de Nanjing "Et" Jiang Bridge ". Si "Jiang Bridge" n'est pas le nom d'une personne, il continuera d'être divisé en "jiang" et "pont".
C'est évidemment incorrect, la raison de ce problème est également très simple, car il y a une ambiguïté en chinois. Surtout lorsque le dopage, parce que les gens ont de nombreux types de personnes, ne peuvent pas être inclus dans la table de mots. Si vous incluez vraiment, il y aura un problème.
Lundi, l'algorithme de correspondance maximum maximum
pour résoudre le problème entre des algorithmes appropriés transitoires, les personnes ont donné l'algorithme de correspondance inverse. Presque exactement comment penser et combiner positivement, seule la chaîne de pièces sera changée de l'étape précédente de l'arrière.
Chaque fois que nous recevons du dernier N dans la phrase vOh rejoindre le mètre de mots. S'il n'y a pas de correspondance, supprimez le premier mot en N, continuez à correspondre au N-1 derrière. Jusqu'à ce que la correspondance puisse être combinée
Dans l'application réelle, le taux d'erreur correspondant positif est d'environ 1/169 et le taux d'erreur inverse est 1/245, évidemment le match inverse. sera mieux. C'est aussi la raison, car il y a de nombreuses phrases en chinois, le centre des mots se concentrait souvent derrière, comme "Yangtze River Bridge" auparavant, il est facile d'identifier "Nanjing" et "Pont de la rivière Yangtze"
Bien sûr, le match inverse n'est pas parfait et il existe de nombreuses études.
Match maximum Troisième, maximum maximum
Le principe de correspondance maximal à deux dimensions est également très simple, ce qui est une combinaison de transition et de négation. Perte, car les deux algorithmes sont le contraire, de la logique, voir un supplément peut être possible.
En fait, cela est vrai, selon la recherche, environ 90% des phrases chinoises, des transitions et des îlesL'inverse est parfaitement adapté et précis. Environ 9% des phrases sont incompatibles avec les résultats de deux algorithmes et ont un ajustement. Seulement 1% des phrases, les résultats des deux algorithmes sont faux.
L'idée de l'algorithme est également simple, ce qui signifie comparer des résultats combinés positifs et des combinaisons inverse. Si cohérent, il est directement considéré comme une réponse correcte. S'il est incompatible, sélectionnez quelques mots dans lesquels un mot est sélectionné.
Deux résultats de "Nanjing Yangtze River Bridge" sont "Nanjing", "Maire", "Jiang", "Bridge" et "Nanjing", "Bridge de la rivière Yangtsé", puis l'algorithme Choisissez plus tard.
443]
Sur la base des algorithmes des statistiques, nous utilisons la probabilité qui apparaît dans des statistiques pour montrer que l'exactitude du diagramme viennent.Évidemment, nous devons calculer que toutes les conditions sont impossibles, car les espaces de paramètres sont trop volumineux, les données sont trop clairsemées. Mais heureusement, chNous pouvons conclure, en théorie, quels mots apparaîtront dans une position dans certaines positions, ce qui peut impliquer tous les autres mots. Mais nous pouvons simplifier cette relation, nous pensons simplement que les deux mots apparaissent avant chaque mot.
est,
"Cet espace modèle est considérablement réduit, nous répertorions la présence de mots et trouvons une probabilité maximale d'apparence par des statistiques.
L'algorithme de la clonante pour apprendre profondément, mercredi
après un apprentissage en profondeur, de nombreux types d'algorithmes de Gronet chinois ont été présentés en Chine ont été présentés. L'un des types les plus simples choisis ici.
Les modèles sont populaires en tant que BITSTM, c'est-à-dire un modèle LSTM bidirectionnel. Avantages Le modèle LSTM est de comprendre les informations de la série chronologique, dans le texte, vous pouvez apprendre directement les mots. BILSTM est une- modèle LSTM modèle pour la chaîne positive de phrases et également visualisée compte tenu de l'inversion de la phraseEt certains sont similaires à l'algorithme de correspondance bidimensionnel ci-dessus.
L'entrée du modèle est un ensemble de tous les caractères chinois de tous les caractères chinois. C'est un peu similaire aux pratiques Word2vec (ici, les étudiants inconnus peuvent ignorer, introduire spécifiquement des postes Word2vec) et chaque mot à taper. Il existe quatre types par mot, qui est S (Simple), à savoir Word Word, B (Démarrer), Démarrer, M (Milieu), une partie intermédiaire d'un mot et E (fin), c'est la fin de chaque mot.
Lorsque le modèle de lecture incorporé, le résultat prévu du modèle est la probabilité de chaque type de chaque type. Enfin, selon les résultats prédits du modèle, les finitions sont complétées pour l'ensemble du texte.
Par rapport à l'algorithme précédent, cet algorithme a une précision plus élevée, mais elle a également ses propres problèmes. Le plus gros problème est qu'il dépend très dépendant des résultats de marquage artificiel. Si vous voulez le modèle, c'est très bien et la qualité des besoins en formation est très élevée, le coût des personnes est donc élevé.
Les mots chinois sont un très petit point, mais c'est très important et toutes les écoles liées au texte ne peuvent être séparées de celle-ci.Heureusement, dans la plupart des cas, nous n'avons pas besoin de mettre en œuvre manuellement un algorithme différent, car il existe de nombreuses sources ouvertes libres sur le marché, comme Dinh, Jieba célèbre, V.V.Cependant, cependant, comprenez le principe d'algorithme en profondeur, il reste nécessaire.