Reconnaître le réseau nerveux circulaire (pas de cadre) de zéro

Arrière-plan

Le réseau nerveux circulatoire est un réseau nerveux profond. Il a été développé dans les années 1980 et 1990, avec la renaissance, le réseau nerveux de la circulaire d'études après le 21ème siècle, la recherche et l'application s'est également lancé sur l'autoroute. Le réseau nerveux circulant est principalement utilisé conformément aux problèmes de séquence, tels que la traduction automatique, la création de texte, la reconnaissance vocale, les prévisions de stock, les prévisions météorologiques, etc le soi-disant problème La séquence fait référence à la relation étroite avant et après, le précédent La série d'informations contribue à résoudre la question suivante, telle que Cross Talk, garder la phrase plus tôt, taquiner, connaître la phrase suivante, comme assister à la météo, connaissant la météo ces dernières heures, peut nettoyer les conditions météorologiques après les prochains jours. les heures.

Les réseaux neurologiques distribués de manière lente Développer lentement une variété d'algorithmes tels que LSTM, Gru, Emplacement de la coiffure et Algorithms, et différents algorithmes de déformation peuvent être appliqués à des scripts différents, ou pourCertains aspects ont été optimisés, tels que LSTM, peuvent résoudre une partie de la question que RNN est facile à gradient sur des problèmes de séquence longue, la structure Relative LSTM de Gru facilement facilement et plus simple, mais ces algorithmes sont essentiellement axés sur "cycle", ayant des études ont mis en place un test de neurologie circulatoire de milliers de structures différentes, et ont constaté que ces algorithmes ont signalé différents fruits.

Cet article se concentre sur les réseaux RNN LSTM et les réseaux classiques initiaux, d'aucun cadre à déployer d'ARN et de LSTM Traditionnellement étendu et répandu à l'arrière et utilisé pour la prévision de «lettre suivante» prévisible. La question, j'espère que cet article peut approfondir la perspective des personnes sur les réseaux nerveux circulants.

Données de formation (partielle) utilisées ici comme ci-dessus, EOS indique la dernière partie de la phrase, a, b sont des lettres qui peuvent apparaissent dans des phrases, avecUNK pour représenter des lettres non spécifiées. L'objectif prédit de cet article reçoit une nouvelle chaîne comme [A, A, A, A, A], prévoyant que la chaîne apparaîtra à côté de la prochaine apparition jusqu'à la fin de la phrase.

Récurrence neuronale

Le réseau de nerfculatoires est l'un des réseaux nerveux profonds et comprend une entrée de couche, une couche cachée et une couche de sortie. Les informations générales sont une couche de chaque couche et la couche nerveuse circulaire est différente dans laquelle son entrée est la donnée de séquence et la sortie de couche cachée des données de temps de courant de la chaîne sera utilisée comme entrée de mot la prochaine fois. Une couche cachée est une boucle. La structure est la suivante et si la couche cachée du nerf circulatoire est déployée en fonction de la longueur de la séquence, la structure est indiquée ci-dessous.

x est l'entrée de séquence, X = [.. XT-1, XT, XT + 1..
U est connecté à la matrice le poids du poids des entrées de calque et des couches cachées sont la matrice de poids
U, ramasséeG La prochaine fois et la prochaine fois, sont connectés au poids de chaque calque de temps et de sortie. Matrice
H est une unité d'état cachée
O est l'unité d'état de sortie
pour chaque fois, la formule calcule la ligne circulation de l'information est Comme suit:
HT = F (U XT + V HT-1), où F est une fonction de déclenchement, telle que poisson
OT = Softmax (W HT)
,
Ensuite, nous allons commencer un réseau RNN.

Déterminez d'abord la matrice de paramètre et effectuez l'initialisation, la méthode d'initialisation des paramètres a un impact important sur le réseau neuronal de la vitesse et de l'effet, cet article utilise l'initialisation orthopédique des méthodes d'initialisation , les détails modaux peuvent être mentionnés à la fin de l'article [1].

Fonction d'activation
La fonction d'activation utilisée principalement trois:

Le code est comme suit:

Propaganda RNV sur le côtéc

L'entrée s'est détachée avec des données de données d'entrée comprenant les données de séquence et les paramètres de réseau initialisés, le code atteint les éléments suivants:

Direction RNN RNN

Calculer le calcul de l'erreur relative de la valeur prévisible de la propagation de l'avant et du calcul du gradient des paramètres réseau liés à l'erreur de prédiction au fil du temps, le code est comme suit:

Optimisez la pente

La pente de chaque paramètre est calculée en se répandant et les paramètres doivent être mis à jour en optimisant l'algorithme, cet article utilise l'algorithme initial de réduction initiale d'origine. (SGD, dégradé stochastique dexendcent) Faites une mise à jour de dégradé, le code suivant:

La flèche de dégradé

peut être vue du processus de calcul ci-dessus, si le modèle de séquence est également long, le La chaîne à propagation de gradient sera très longue, la pente est trop grande ou trop petite est en cours de communication. Le gradient ou l'explosion de gradient manquante provoquera le réseau.G est formé, c'est vraiment un problème sera rencontré lorsqu'il s'agit d'une formation excessive de la neuroscience.

L'explosion de gradient peut provoquer une pente avec des valeurs NAAN et des valeurs NAN paralysées directement, car elle ne peut pas effectuer une activité mathématique normale. Les explosions de gradient peuvent être contrôlées à l'aide de l'arbre de dégradé, du poids régulier.

Formation Les réseaux nerveux profonds sont plus courants en raison du gradient manquant, principalement en raison de la plupart des fonctions d'activation plus petites 1. La disparition de gradient entraîne une couche de saisie de paramètres fermée. Fondamentalement, il n'est pas mis à jour, équivalent à une certaine bague pendant le processus de propagation, ce qui entraîne une incomplète le processus de mise à jour complet. La pente disparaît, en utilisant les normes relatives activées, V.V les normes de lot, le réseau restant, le modèle de pré-formation, le réseau de contrôle de la porte, etc. Le réseau LSTM sera introduit.

LSTM Network

Les réseaux Netal LSTM ont une seule introductionSimple dans l'utilisation du réseau nerveux profond de LSTM, et la prévision de la tendance est une brève introduction, je peux le voir. LSTM est élargi comme suit et peut être vu qu'il y a deux:

L'une est deux lignes lorsque les informations de commande sont transmises et que la ligne est responsable de la transmission du statut de l'unité. Voici les informations sur l'état caché

Deuxièmement, la conversion de la relation de calcul entre l'entrée d'état cachée et la sortie plus complexe et ensuite, la structure interne d'un seul LSTM sera introduite.

La structure nerveuse LSTM est la suivante:
5 composants de base, sont les suivants:

Statut mobile - Stockage Unité

Statut caché (HiddiState) - Sur la base de l'entrée actuelle, de l'état caché précédent et de l'état de l'unité de l'unité de l'unité d'état de l'état de l'état de l'état des informations de l'état de la porte

(Entergate) - Contrôle la quantité d'informations

Ouvert de l'entrée en cours Stream à l'état de l'unité - Contrôle de la quantité bruteLes informations contenues dans l'entrée en cours et l'état de l'unité précédente s'écouchent dans l'état de l'unité actuelle

Exportation - combien d'informations sont contrôlées à partir de l'état de l'unité actuelle dans un état caché

la formule de calcul est la suivante :

On peut voir que l'entrée des trois unités de contrôle de la porte et de l'unité de l'état de la cellule sont identiques, toutes les heures actuelles dans l'importation XT et masquent l'état HT-1 précédent, mais leurs paramètres sont différents, tandis que l'unité de l'état de la cellule est utilisée par les fonctions d'activation fonctionnelle. Vous avez oublié la porte FT, l'état de la cellule sur CT-1, la porte à retenir et l'état actuel de la cellule identifie l'état mobile de sortie, OT et la sortie CT identifient la sortie HDDENNE SORTIE HTD. La formule de calcul claire et le réseau LSTM peuvent être démarrées ci-dessous, le processus convient fondamentalement à la RNN ci-dessus.

LSTM
]
jusqu'à présent, transmissionLes réseaux RNN et LSTM à l'avant et à l'arrière seront atteints et on peut constater qu'il existe de nombreux paramètres LSTM par rapport au processus de calcul RNN et plus complexe. Le processus de formation de deux processus cohérents, l'ensemble du processus de formation comprend des données d'entrée - & GT; Fourniture de données - & gt; Propagande en avant - & gt; Suivant - & gt; Mettre à jour les paramètres, code comme suit:
Le module de traitement des données n'est pas une bonne conférence ici et intéressé par le téléchargement du code littéraire du code littéraire. Utilisation des résultats de la formation et de la vérification des réseaux LSTM comme suit:

On peut voir que le neurone LSTM résout une question de prédiction de séquence simple, car cette question relativement simple, très bonne loi, par exemple, quatre Avoir quatre B. Cela peut être très facile pour des problèmes réguliers réguliers. Lorsque quelqu'un recherche un programme qui aide à prédire le même code de vérification (il est également possible de prédire le code de chaîne de couleurs à six couleurs), en fonction du code de vérification précédent, veuillezDonnez au code de vérification pour apparaître ensuite, je l'ai essayé, je l'ai trouvé. L'entraînement indicateur est correct, mais l'indicateur de test est un désordre, essentiellement qu'avec l'anticipation, car le problème initial peut ne pas souvent, le programme n'apprend aucun ce qui ne va pas.

Résumé

Conduite du réseau de neutring neurologique pour voir que le réseau neuronal de profondeur générale n'est pas important, en particulier lorsque la séquence de données crée un échantillon au minimum et entrez la personne handicapée. Dans le réseau nerveux nerveux profond de modules différentiels, la plus petite différence et la vitesse et l'effet de formation de ce dernier peuvent être plus bénéfiques.

LSTM est une attention fonctionnelle de RNV, agissant en tant que réseaux de contrôle des ports complexes. Les unités de circulation dans le réseau nerveux nerveux ont tendance à être plus attentives au bord précédent, tels que le transformateur chaud actuel.

Référence Initialisation des paramètres orthotiques: correcte pourLa dynamique non linéaire dans les réseaux de neurones linéaires profonds [2] Entrepôt de code: HTTPS: / / / / / / / / / / / / / / / //guge] [3] Évaluation de l'audiologie des réseaux: cellules LSTM et architecture de réseau

Sujets

Réseau nerveux

Catégories

Apprentissage automatique