Återkommande neurala nätverk

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 22 januari 2022; kontroller kräver 7 redigeringar .

Återkommande neurala nätverk ( RNS , eng.  Recurrent neural network ; RNN ) - en typ av neurala nätverk , där kopplingar mellan element bildar en riktad sekvens. Detta gör det möjligt att bearbeta en serie händelser i tid eller successiva rumsliga kedjor. Till skillnad från flerskiktsperceptroner kan återkommande nätverk använda sitt interna minne för att bearbeta sekvenser av godtycklig längd. Därför är RNN:er tillämpliga i sådana uppgifter där något integrerat är uppdelat i delar, till exempel: handskriftsigenkänning [1] eller taligenkänning [2] [3] . Många olika arkitektoniska lösningar har föreslagits för återkommande nätverk, allt från enkla till komplexa. På senare tid har långtids- och korttidsminnesnätverket (LSTM) och den kontrollerade återkommande enheten (GRU) blivit de mest utbredda.

Historik

John Hopfield föreslog Hopfield Network 1982 . År 1993 kunde ett neuralt system för lagring och komprimering av historisk data lösa ett problem med "mycket djupinlärning" där mer än 1000 på varandra följande lager vecklades ut i ett återkommande nätverk. [fyra]

Long Short Term Memory (LSTM)

Nätverk med långtids- och korttidsminne ( eng.  Långtidsminne, LSTM) ; LSTM ). [5] har hittat tillämpning i olika tillämpningar.

Från och med 2007 blev LSTM populär och kunde ta taligenkänning till nästa nivå , vilket visade en betydande förbättring jämfört med traditionella modeller. [6] Under 2009 uppstod den Connectionist Temporal Classification (CTC)-metoden. Denna metod gjorde det möjligt för återkommande nätverk att inkludera kontextanalys i handskriftsigenkänning. [7] 2014 kunde Encyclopedia of China och sökmotorn Baidu , med hjälp av CTC-tränade återkommande nätverk, ta Switchboard Hub5'00 till en ny nivå, före traditionella metoder. [åtta]

LSTM har också lett till förbättringar i taligenkänning med stora ordböcker [2] [3] och förbättringar i text-till-tal [9] , och har även hittat applikationer i operativsystemet Google Android . [10] Under 2015 ökade Googles taligenkänning avsevärt sina poäng upp till 49 %, anledningen till detta var användningen av ett speciellt CTC-baserat LSTM-utbildningssystem i Googles röstsöksystem . [elva]

LSTM har fört till en ny nivå kvaliteten på maskinöversättning , [12] bygga språkmodeller och [13] flerspråkig textbehandling. [14] Genom att kombinera LSTM med Convolutional Neural Networks (CNN) har den automatiska bildbeskrivningen förbättrats. [femton]

Arkitektur

Det finns många varianter, lösningar och konstruktiva delar av återkommande neurala nätverk.

Svårigheten med det återkommande nätverket ligger i det faktum att om varje tidssteg beaktas, så blir det nödvändigt för varje tidssteg att skapa sitt eget lager av neuroner, vilket orsakar allvarliga beräkningssvårigheter. Dessutom visar sig flerskiktsimplementeringar vara beräkningsmässigt instabila, eftersom vikter vanligtvis försvinner eller går ur skalan i dem. Om beräkningen är begränsad till ett fast tidsfönster kommer de resulterande modellerna inte att spegla långsiktiga trender. Olika tillvägagångssätt försöker förbättra modellen för historiskt minne och mekanismen för att minnas och glömma.

Helt återkommande nätverk

Denna grundläggande arkitektur utvecklades på 1980-talet. Nätverket är uppbyggt av noder som var och en är ansluten till alla andra noder. För varje neuron ändras aktiveringströskeln över tiden och är ett reellt tal. Varje förening har en variabel verklig vikt. Noder är indelade i input, output och dolda.

För tidsdiskret övervakad inlärning , vid varje (diskret) tidssteg, matas ingångsnoder data, och andra noder fullbordar sin aktivering, och utsignaler förbereds för överföring av neuronen till nästa nivå. Om till exempel nätverket ansvarar för taligenkänning, som ett resultat, skickas redan etiketter (igenkända ord) till utmatningsnoderna.

I förstärkningsinlärning finns det ingen lärare som tillhandahåller målsignaler för nätverket, istället används ibland en fitnessfunktion (fitness) eller en belöningsfunktion, som utvärderar nätverkets kvalitet, medan utgångsvärdet påverkar nätverkets beteende vid ingången. I synnerhet, om nätverket implementerar ett spel, mäts resultatet av antalet vinst- eller positionspoäng.

Varje steg beräknar felet som den totala avvikelsen för nätverksutgångarna. Om det finns en uppsättning träningsprov, beräknas felet med hänsyn till felen för varje enskilt prov.

Rekursivt nätverk

Rekursiva neurala nätverk är ett mer allmänt fall av återkommande nätverk, när signalen i nätverket passerar genom en struktur i form av ett träd (vanligtvis binära träd). [16] Samma viktmatriser används rekursivt i hela grafen enligt dess topologi. [17] [18] Rekursiva neurala nätverk kan användas i naturliga språkbehandlingsuppgifter . [19] Det finns även tensorrekursiva neurala nätverk (RNTN, Rekursive Neural Tensor Network), som använder tensorfunktioner för alla noder i trädet. [tjugo]

Hopfields neurala nätverk

Ett Hopfield-nätverk  är en typ av återkommande nätverk där alla anslutningar är symmetriska. Uppfann av John Hopfield 1982, är det garanterat att dynamiken i ett sådant nätverk konvergerar till en av jämviktspositionerna. Om Hebbian learning används när man skapar anslutningar kan Hopfield-nätverket fungera som ett pålitligt associativt minne som är motståndskraftigt mot ändrade anslutningar.

Bidirectional Associative Memory (BAM)

En variant av Hopfield-nätverket är dubbelriktat associativt minne (BAM) . BAM har två lager, som vart och ett kan fungera som en input, hitta (kom ihåg) en association och generera ett resultat för det andra lagret. [21] [22] [23]

Elman och Jordan Networks

Elmans neurala nätverk är ett trelagers neuralt nätverk. I illustrationen är lagren i nätverket märkta x , y och z . Nätverket innehåller också en uppsättning "kontextrutor" ( u i illustrationen) som lagrar tidigare värden för dolda lagernoder. För att göra detta kopplas det dolda lagret till kontextblocken genom direktlänkar med en fast vikt lika med ett. [24] För varje steg tas information emot vid ingången, som passerar en direkt väg till utlagret i enlighet med inlärningsreglerna. Fasta återkopplingar från kontextblocken förmedlar värdena för de tidigare tillstånden för noderna i det dolda lagret (innan det dolda lagret ändrar värdet under inlärningsprocessen). På detta sätt behåller nätverket sitt tidigare tillstånd, vilket ger sekvensprediktion, vilket är bortom kapaciteten hos en flerskiktsperceptron.

Jordans neurala nätverk liknar Elmans nätverk. Kontextrutorna är dock inte associerade med det dolda lagret, utan med utdatalagret. Kontextblock bevarar alltså nätverkets tidigare tillstånd och möjliggör återkommande kommunikation i nätverket. [24]

Elmans och Jordaniens nätverk kallas också "enkla återkommande nätverk" (SRN).

Elman nätverk [25] Jordan Network [26]

Variabel- och funktionsbeteckningar:

  • : indatalagervektor
  • : dold lagervektor
  • : utgångsskiktsvektor
  • , och : Anslutningsviktsmatriser och parametervektor
  • och : Aktiveringsfunktion

Echo nätverk

Ekonätverk ( engelsk  echo state network ; ESN ) kännetecknas av ett dolt lager (som kallas en reservoar) med slumpmässiga glesa kopplingar mellan neuroner. I det här fallet är anslutningarna inuti behållaren fasta, men anslutningarna med utgående skikt är föremål för träning. Tankens tillstånd (tillstånd) beräknas genom tankens tidigare tillstånd, såväl som tidigare tillstånd för in- och utsignalerna. Eftersom ekonätverk bara har ett dolt lager har de en ganska låg beräkningskomplexitet, men kvaliteten på simuleringen är starkt beroende av de initiala inställningarna, som är ungefär slumpmässiga. Ekonätverk fungerar bra när du återger tidsserier . [27] En variant av ekonätverk är impuls- (spik-) neurala nätverk , även kända som flytande neurala nätverk ("vätskenätverk är namngivna med hjälp av metaforen om divergerande cirklar på vatten från en fallande sten, vilket kännetecknar korttidsminnet från en ingångshändelse). [28]

Neural historia kompressor

Den neurala kompressorn av historisk data är ett block som låter dig lagra i en komprimerad form de väsentliga historiska egenskaperna hos processen, som är en sorts stack av ett återkommande neuralt nätverk som bildas i processen för självinlärning . [29] På ingångsnivån försöker neuralhistoria-kompressorn förutsäga nästa ingång från historiska data. Nästa nivå i det återkommande nätverket tar bara emot de ingångar som inte kunde förutsägas, och som samtidigt bidrar till en förändring i kompressorns tillstånd. Varje nästa lager i nätverket lär sig också komprimerad historisk information från tidigare lager på samma sätt. Således kan inmatningssekvensen noggrant rekonstrueras från representationen av efterföljande lager.

Systemet försöker minimera storleken på beskrivningen, eller använder negativa logaritmer för att uppskatta sannolikheterna för data. [30] Genom att använda träningsbar förutsägbarhet i den inkommande datasekvensen kan nästa nivås RNN-nätverk, som tillämpar redan övervakad inlärning, redan klassificera även djupa sekvenser med stora tidsintervall mellan nyckelhändelser.

Således kan RNN-nätverket delas in i två nivåer av lager: "medveten" (högre nivå) och "undermedveten" automatisering (lägre nivå). När toppnivån har lärt sig att förutsäga och komprimera ingångar (som är oförutsägbara) med hjälp av automatorn, då kan automatorn sedan tvingas i nästa steg av att lära sig att förutsäga sig själv eller härma genom ytterligare eller dolda block av långsammare förändring högsta nivån. Detta förenklar automatörens arbete, vilket möjliggör långsiktiga, men sällan föränderliga minnen. Detta hjälper i sin tur automatören att göra många av sina en gång oförutsägbara ingångar förutsägbara, så att det översta lagret kan fokusera på de återstående oförutsägbara händelserna. [29]

Long Short Term Memory (LSTM)

Ett nätverk med långtids- och korttidsminne ( engelska  Long short term memory, LSTM) är ett djupt inlärningssystem , vars implementering lyckades kringgå problemet med att försvinna eller gå utanför skalan av gradienter i inlärningsprocessen med hjälp av metod för återförökning . LSTM-nätverket modereras vanligtvis med återkommande grindar som kallas "glöm"-grindar. [31] Fel sprids bakåt i tiden genom ett potentiellt obegränsat antal virtuella lager. På detta sätt sker inlärning i LSTM [32] samtidigt som minnet av tusentals och till och med miljontals tidsintervall i det förflutna behålls. Topologier för LSTM-nätverk kan utvecklas i enlighet med processens detaljer. [33] I ett LSTM-nätverk kan även stora förseningar mellan betydande händelser tas med i beräkningen, och därmed kan högfrekventa och lågfrekventa komponenter blandas.

Många återkommande nätverk använder datastackar som är inneboende i LSTM [34] Nätverk kan tränas med hjälp av "Connectionist Temporal Classification (CTC)" [  35 ] för att hitta en sådan viktmatris där sannolikheten för en sekvens av etiketter i uppsättningsproverna vid lämpligt ingångsströmmen minimeras. CTC låter dig uppnå både beställning och erkännande.

LSTM kan också tränas i att känna igen sammanhangskänsliga språk, till skillnad från tidigare modeller baserade på Hidden Markov Model (HMM) och liknande idéer. [36]

Andra ordningens återkommande nätverk

Andra ordningens återkommande nätverk använder högre ordningens vikter istället för vanliga vikter , och ingångs- och tillståndsparametrarna kan erhållas som en produkt. I detta fall omvandlas nätverket (mappning) till en tillståndsmaskin både i inlärningsprocessen och under stabilisering och presentation. [37] [38] Långt korttidsminne har i detta fall inte ett sådant transformations- och stabilitetstest.

Kontrollerat återkommande block

Gated recurrent unit ( Gated recurrent units ; GRU ) är en återkommande nätverkshanteringsmekanism som föreslagits 2014 .  GRU-prestanda i talsignaler eller polyfoniska musikmodeller visade sig vara jämförbara med långtidsminne (LSTM). [39] Denna modell har färre parametrar än LSTM och saknar utgångskontroll. [40]

Se även

Anteckningar

  1. Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. Ett nytt anslutningssystem för förbättrad obegränsad handskriftsigenkänning  // IEEE-  transaktioner på mönsteranalys och maskinintelligens : journal. - 2009. - Vol. 31 , nr. 5 .
  2. 1 2 Sak, Hasim; Senior, Andrew; Beaufays, Francoise Långt korttidsminne återkommande neurala nätverksarkitekturer för storskalig akustisk modellering (otillgänglig länk) (2014). Hämtad 9 december 2017. Arkiverad från originalet 24 april 2018. 
  3. 1 2 Li, Xiangang & Wu, Xihong (2014-10-15), Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition, arΧiv : 1410.4281 [cs.CL]. 
  4. Schmidhuber, Jürgen . Habiliteringsuppsats : Systemmodellering och optimering  . — 1993. Sidan 150 ff visar kredituppgift över motsvarande 1 200 lager i ett ovikt RNN.
  5. Hochreiter, Sepp; Schmidhuber, JürgenLångt korttidsminne  //  Neural Computation. - 1997. - 1 november ( vol. 9 , nr 8 ). - P. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 .
  6. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen. En tillämpning av återkommande neurala nätverk för diskriminerande sökordsupptäckning  //  Proceedings of the 17th International Conference on Artificial Neural Networks: tidskrift. - Berlin, Heidelberg: Springer-Verlag, 2007. - Vol. ICANN'07 . - S. 220-229 . — ISBN 978-3-540-74693-5 .
  7. Graves, Alex; Schmidhuber, Jürgen. Offline handskriftsigenkänning med multidimensionella återkommande neurala nätverk // Neural Information Processing Systems  (  NIPS) Foundation: journal / Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris redaktör-KI; Culotta, Aron. - 2009. - S. 545-552 .
  8. Hannun, Awni; Fall, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; et al. (2014-12-17), Deep Speech: Scaling up end-to-end-taligenkänning, arΧiv : 1412.5567 [cs.CL]. 
  9. Bo Fan, Lijuan Wang, Frank K. Soong och Lei Xie (2015). Photo-Real Talking Head med Deep Bidirectional LSTM. I Proceedings of ICASSP 2015.
  10. Zen, Heiga; Sak, Hasim Enkelriktat långt korttidsminne Återkommande neuralt nätverk med återkommande utdatalager för talsyntes med låg latens . Google.com 4470–4474. ICASSP (2015). Arkiverad från originalet den 9 maj 2021.
  11. Sak, Hasim; Senior, Andrew; Rao, Kanishka; Beaufays, Francoise; Schalkwyk, Johan Google röstsökning: snabbare och mer exakt (september 2015). Tillträdesdatum: 9 december 2017. Arkiverad från originalet 9 mars 2016.
  12. Sutskever, L.; Vinyals, O.; Le, Q. Sekvens till sekvensinlärning med neurala nätverk  (obestämd)  // Electronic Proceedings of the Neural Information Processing Systems Conference. - 2014. - T. 27 . - S. 5346 . - . - arXiv : 1409.3215 .
  13. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam & Wu, Yonghui (2016-02-07), Exploring the Limits of Language Modeling, arΧiv : 1602.02410 [cs.CL]. 
  14. Gillick, Dan; Brunk, Cliff; Vinyals, Oriol & Subramanya, Amarnag (2015-11-30), Flerspråkig språkbehandling från bytes, arΧiv : 1512.00103 [cs.CL]. 
  15. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy & Erhan, Dumitru (2014-11-17), Show and Tell: A Neural Image Caption Generator, arΧiv : 1411.4555 [cs.CV]. 
  16. Goller, C.; Küchler, A. Lärande av uppgiftsberoende distribuerade representationer genom backpropagation genom struktur  //  IEEE International Conference on Neural Networks, 1996: tidskrift. - 1996. - Vol. 1 . - S. 347 . - ISBN 0-7803-3210-5 . - doi : 10.1109/ICNN.1996.548916 .
  17. Seppo Linnainmaa (1970). Representationen av det kumulativa avrundningsfelet för en algoritm som en Taylor-expansion av de lokala avrundningsfelen. Magisteruppsats (på finska), Univ. Helsingfors, 6-7.
  18. Griewank, Andreas; Walter, Andrea. [ [1]  i Google Books Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation  ] . — För det andra. - SIAM, 2008. - ISBN 978-0-89871-776-1 .
  19. Socher, Richard; Lin, Cliff; Ng, Andrew Y. & Manning, Christopher D., Parsing Natural Scenes and Natural Language with Recursive Neural Networks , 28:e internationella konferensen om maskininlärning (ICML 2011) Arkiverad 31 oktober 2017 på Wayback Machine 
  20. Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. Rekursiva djupa modeller för semantisk komposition över en sentimentträdbank  (engelska)  // Emnlp 2013 : journal.
  21. Kosko, B. (1988). "Dubbelriktade associativa minnen". IEEE-transaktioner på system, människa och cybernetik . 18 (1): 49-60. DOI : 10.1109/21.87054 .
  22. Rakkiyappan, R.; Chandrasekar, A.; Lakshmanan, S.; Park, Ju H. Exponentiell stabilitet för Markovian hoppande stokastiska BAM neurala nätverk med modberoende probabilistiska tidsvarierande fördröjningar och impulskontroll  //  Complexity: journal. - 2015. - 2 januari ( vol. 20 , nr 3 ). - S. 39-65 . - doi : 10.1002/cplx.21503 .
  23. Raul Rojas. [ [2]  i Google Books Neural Networks : a systematisk introduktion]  . - Springer, 1996. - S. 336. - ISBN 978-3-540-60505-8 .
  24. 12 Cruse , Holk; Neural Networks as Cybernetic Systems Arkiverad 20 oktober 2016 på Wayback Machine , 2:a och reviderade upplagan
  25. Elman, Jeffrey L. Hitta struktur i tid  (obestämd)  // Kognitiv vetenskap. - 1990. - T. 14 , nr 2 . - S. 179-211 . - doi : 10.1016/0364-0213(90)90002-E .
  26. Jordan, Michael I. Serial Order: A Parallel Distributed Processing Approach  //  Framsteg i psykologi: journal. - 1997. - 1 januari ( vol. 121 ). - s. 471-495 . — ISBN 97804444819314 . - doi : 10.1016/s0166-4115(97)80111-2 .
  27. Jaeger, Herbert; Haas, Harold. Utnyttja icke-linjäritet: Förutsäga kaotiska system och spara energi i trådlös kommunikation  (engelska)  // Science : journal. - 2004. - 2 april ( vol. 304 , nr 5667 ). - S. 78-80 . - doi : 10.1126/science.1091277 . - . — PMID 15064413 .
  28. W. Maass, T. Natschläger och H. Markram. En ny titt på realtidsberäkning i generiska återkommande neurala kretsar. Teknisk rapport, Institutet för teoretisk datavetenskap, TU Graz, 2002.
  29. 1 2 Schmidhuber, Jürgen. Lärande av komplexa, utökade sekvenser med hjälp av principen för historiekomprimering  //  Neural Computation : journal. — Vol. 4 , nr. 2 . - S. 234-242 .
  30. Schmidhuber, Jürgen. Deep Learning  (obestämd tid)  // Scholarpedia . - 2015. - T. 10 , nr 11 . - S. 32832 .
  31. Gers, Felix; Schraudolph, Nicol N.; Schmidhuber, Jürgen Lär dig exakt timing med LSTM återkommande nätverk (PDF-nedladdning tillgänglig) . ResearchGate . Hämtad 13 juni 2017. Arkiverad från originalet 4 april 2019.
  32. Schmidhuber, Jürgen Deep Learning in Neural Networks: An Overview  (neopr.)  // Neural Networks. - 2015. - Januari ( vol. 61 ). - S. 85-117 . - doi : 10.1016/j.neunet.2014.09.003 . - arXiv : 1404.7828 . — PMID 25462637 .
  33. Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Jürgen. Evolving Memory Cell Structures for Sequence Learning  //  Artificiella neurala nätverk - ICANN 2009: tidskrift. - Springer, Berlin, Heidelberg, 2009. - 14 september ( vol. Lecture Notes in Computer Science ). - s. 755-764 . - ISBN 978-3-642-04276-8 . - doi : 10.1007/978-3-642-04277-5_76 .
  34. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen. Sekvensmärkning i strukturerade domäner med hierarkiska återkommande neurala nätverk   // Proc . 20:e Int. Gemensam konf. om artificiell intelligens, Ijcai 2007: tidskrift. - 2007. - S. 774-779 .
  35. Graves, Alex; Fernandez, Santiago; Gomez, Faustino. Connectionistisk tidsklassificering: Märkning av osegmenterad sekvensdata med återkommande neurala nätverk  //  In Proceedings of the International Conference on Machine Learning, ICML 2006: tidskrift. - 2006. - S. 369-376 .
  36. Gers, F.A.; Schmidhuber, E. LSTM återkommande nätverk lär sig enkla kontextfria och sammanhangskänsliga språk  // IEEE-  transaktioner på neurala nätverk : journal. - 2001. - November ( vol. 12 , nr 6 ). - P. 1333-1340 . — ISSN 1045-9227 . - doi : 10.1109/72.963769 .
  37. CL Giles, CB Miller, D. Chen, HH Chen, GZ Sun, YC Lee, "Learning and Extracting Finite State Automata with Second-Order Recurrent Neural Networks" Arkiverad 15 april 2021 på Wayback Machine , Neural Computation, 4( 3), sid. 393, 1992.
  38. CW Omlin, CL Giles, "Constructing Deterministic Finite-State Automata in Recurrent Neural Networks" Arkiverad 18 april 2017 på Wayback Machine Journal of the ACM, 45(6), 937-972, 1996.
  39. Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun & Bengio, Yoshua (2014), Empirisk utvärdering av gated recurrent neural Networks on Sequence Modeling, arΧiv : 1412.3555 [cs.NE]. 
  40. Handledning för återkommande neuralt nätverk, del 4 - Implementering av en GRU/LSTM RNN med Python och Theano - WildML . Hämtad 18 maj 2016. Arkiverad från originalet 10 november 2021.

Litteratur

  • Jordan, MI Serieordning: A parallel distributed processing approach // Institute for Cognitive Science Report 8604. — University of California, San Diego, 1986.