Långtidsminne

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 16 mars 2021; kontroller kräver 20 redigeringar .

En lång kedja av korttidsminneselement ( eng.  Long short-term memory ; LSTM ) är en typ av återkommande neural nätverksarkitektur som föreslagits 1997 av Sepp Hochreiter och Jurgen Schmidhuber [2] . Liksom de flesta återkommande neurala nätverk är ett LSTM-nätverk universellt i den meningen att det, med ett tillräckligt antal nätverkselement, kan utföra vilken beräkning som helst som en konventionell dator är kapabel till, vilket kräver en lämplig viktmatris , vilket kan betraktas som en program. Till skillnad från traditionella återkommande neurala nätverk är LSTM-nätverket väl anpassat för att lära sig uppgifterna att klassificera , bearbeta och förutsäga tidsserier i fall där viktiga händelser separeras av tidsfördröjningar med obestämd varaktighet och gränser. Den relativa immuniteten mot varaktigheten av tidsluckor ger LSTM en fördel gentemot alternativa återkommande neurala nätverk, dolda Markov-modeller och andra träningsmetoder för sekvenser i olika tillämpningar. Av de många prestationerna i LSTM-nätverk kan man peka ut de bästa resultaten i igenkänning av icke-segmenterad kontinuerlig handskrift [3] och segern 2009 i tävlingen för handskriftsigenkänning ( ICDAR ). LSTM-nätverk används också i taligenkänningsuppgifter , till exempel var LSTM -nätverket huvudkomponenten i nätverket, som 2013 nådde en rekordfelströskel på 17,7 % i fonemigenkänningsuppgiften på den klassiska naturliga talkorpusen TIMIT [4] . Från och med 2016 använder ledande teknikföretag inklusive Google , Apple , Microsoft och Baidu LSTM-nätverk som en grundläggande komponent i nya produkter [5] [6] .

Arkitektur

Ett LSTM-nätverk är ett artificiellt neuralt nätverk som innehåller LSTM-moduler istället för eller utöver andra nätverksmoduler. En LSTM-modul är en återkommande nätverksmodul som kan lagra värden för både korta och långa tidsperioder. Nyckeln till denna förmåga är att LSTM-modulen inte använder en aktiveringsfunktion inom sina återkommande komponenter. Det lagrade värdet blir alltså inte suddigt i tid, och gradienten eller bestraffningen försvinner inte när man använder backpropagation through time-metoden när man tränar ett artificiellt neuralt nätverk . 

LSTM är ofta grupperade i "block" som innehåller olika LSTM. En sådan anordning är typisk för "djupa" flerskiktiga neurala nätverk och bidrar till implementeringen av parallell beräkning med användning av lämplig utrustning. I formlerna nedan betecknar varje variabel, skriven med gemener kursiv stil, en vektor med dimensioner lika med antalet LSTM-moduler i blocket.

LSTM-block innehåller tre eller fyra "grindar" som används för att styra informationsflödet vid ingångarna och utgångarna på minnet för dessa block. Dessa grindar är implementerade som en logistisk funktion för att beräkna ett värde i området [0; ett]. Multiplicering med detta värde används för att delvis tillåta eller förneka informationsflödet in och ut ur minnet. Till exempel styr "ingångsgrinden" i vilken utsträckning ett nytt värde kommer in i minnet, och "glömgrinden" styr i vilken utsträckning ett värde bibehålls i minnet. "Utgångsgrinden" styr i vilken utsträckning värdet i minnet används vid beräkning av utgångsaktiveringsfunktionen för blocket. (I vissa implementeringar implementeras ingångsporten och glömporten som en enda grind. Tanken är att det gamla värdet ska glömmas bort när det finns ett nytt värde värt att komma ihåg).

Vikterna i LSTM-blocket ( och ) används för att ställa in driftriktningen för grindarna. Dessa vikter definieras för värdena som matas in i blocket (inklusive utdata från föregående tidssteg ) för var och en av grindarna. Således bestämmer LSTM-blocket hur det ska hantera sitt minne som en funktion av dessa värden, och styrketräning gör att LSTM-blocket kan lära sig en funktion som minimerar förlusten. LSTM-block tränas vanligtvis med hjälp av backpropagation över tid.

Traditionell LSTM

Traditionell LSTM med glömportar [2] [7] och ( står för Hadamard-produkt ):

Variabler:

Aktiveringsfunktioner :

LSTM med ögon

Eye LSTM med glöm grindar [8] [9] används inte, används som ersättning på de flesta ställen:

Convolutional LSTM

Convolutional LSTM [10] ( står för convolution operator ):

Träningspass

För att minimera det totala felet för LSTM över hela uppsättningen av träningssekvenser, kan iterativ gradientnedstigning såsom tidsupprullad backpropagation användas för att ändra var och en av vikterna i proportion till dess derivata beroende på storleken på felet. Det största problemet med gradientnedstigning för vanliga återkommande neurala nätverk är att felgradienter minskar i en exponentiell takt när tidsfördröjningen mellan viktiga händelser ökar, vilket identifierades 1991 [11] [12] . Med LSTM-block, men när felvärden sprids tillbaka från utgångsskiktet, låses felet i blockets minne. Detta kallas en "felkarusell", som kontinuerligt "matar" ett fel tillbaka till var och en av grindarna tills de tränas att kassera ett värde. Således är regelbunden felåterförökning effektiv för att träna ett LSTM-block för att komma ihåg värden under mycket långa tidsperioder.

LSTM kan också tränas med en kombination av en evolutionär algoritm för vikterna i de dolda lagren och pseudoinversa matriser , eller en stödvektormaskin för vikterna i utlagret. [13] I förstärkningsinlärning kan LSTM tränas genom att direkt söka utrymmet efter strategier, evolutionära strategier eller genetiska algoritmer .

Applikationer

Exempel på LSTM-tillämpningar beskrivs: inom robotik [14] , för tidsserieanalys [15] , för taligenkänning [4] [16] [17] , vid rytmisk inlärning [9] , för generering av musikaliska kompositioner [18] , i grammatikinlärning ( engelsk  artificiell grammatikinlärning ) [8] [19] [20] , i uppgifter för handskriftsigenkänning [21] [22] , för igenkänning av mänsklig aktivitet [23] , i uppgiften att identifiera homologa proteiner [24] .

Anteckningar

  1. Klaus Greff; Rupesh Kumar Srivastava; Jan Koutnik; Bas R. Steunebrink & Jürgen Schmidhuber (2015), LSTM: A Search Space Odyssey, arΧiv : 1503.04069 . 
  2. 12 Sepp Hochreiter ; Jürgen Schmidhuber . Långt korttidsminne //  Neural Computation   : journal. - 1997. - Vol. 9 , nej. 8 . - P. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 . — PMID 9377276 . Arkiverad från originalet den 26 maj 2015. Arkiverad kopia (inte tillgänglig länk) . Hämtad 4 februari 2017. Arkiverad från originalet 26 maj 2015. 
  3. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. Ett nytt anslutningssystem för förbättrad handskriftsigenkänning utan begränsningar. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, nr. 5, 2009.
  4. 1 2 Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey. Taligenkänning med djupa återkommande neurala nätverk  //  Akustik, tal och signalbehandling (ICASSP), 2013 IEEE International Conference on: journal. - 2013. - P. 6645-6649 .
  5. Med QuickType vill Apple göra mer än att gissa din nästa text. Den vill ge dig en AI.  (engelska) . TABLET . Tillträdesdatum: 16 juni 2016. Arkiverad från originalet 24 mars 2017.
  6. Återkommande neurala nätverk - Återkopplingsnätverk - Lstm Återkommande nätverk - Återkommande neurala nätverk - Återkommande nät - Återkopplingsnätverk - Återkommande nät - - Återkopplingsnät . people.idsia.ch _ Hämtad 16 juni 2016. Arkiverad från originalet 5 maj 2021.
  7. Felix A. Gers; Jurgen Schmidhuber; Fred Cummins. Lära sig att glömma: Kontinuerlig förutsägelse med LSTM  //  Neural Computation : journal. - 2000. - Vol. 12 , nr. 10 . - P. 2451-2471 . - doi : 10.1162/089976600300015015 .
  8. 1 2 3 Gers, F.A.; Schmidhuber, J. LSTM återkommande nätverk Lär dig enkla kontextfria och kontextkänsliga språk  // IEEE-transaktioner på neurala  nätverk : journal. - 2001. - Vol. 12 , nr. 6 . - P. 1333-1340 . - doi : 10.1109/72.963769 .
  9. 1 2 3 Gers, F.; Schraudolph, N.; Schmidhuber, J. Lär dig exakt timing med LSTM återkommande nätverk  //  Journal of Machine Learning Research  : tidskrift. - 2002. - Vol. 3 . - S. 115-143 .
  10. Xingjian Shi; Zhurong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting  //  Proceedings of the 28th International Conference on Neural Information Processing Systems : tidskrift. - 2015. - P. 802-810 .
  11. S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Examensarbete, Institut f. Informatik, Technische Univ. München, 1991.
  12. S. Hochreiter, Y. Bengio, P. Frasconi och J. Schmidhuber. Gradientflöde i återkommande nät: svårigheten att lära sig långsiktiga beroenden. I SC Kremer och JF Kolen, redaktörer, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
  13. Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. Training Recurrent Networks av Evolino   // Neural Computation. - 2007. - Vol. 19 , nr. 3 . - s. 757-779 . - doi : 10.1162/neco.2007.19.3.757 .
  14. H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll och J. Schmidhuber. Ett system för robotisk hjärtkirurgi som lär sig att knyta knutar med hjälp av återkommande neurala nätverk. Advanced Robotics, 22/13-14, s. 1521-1537, 2008.
  15. J. Schmidhuber och D. Wierstra och F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, s. 853-858, 2005.
  16. Graves, A.; Schmidhuber, J. Ramvis fonemklassificering med dubbelriktad LSTM och andra neurala nätverksarkitekturer  //  Neural Networks : journal. - 2005. - Vol. 18 , nr. 5-6 . - s. 602-610 . - doi : 10.1016/j.neunet.2005.06.042 .
  17. S. Fernandez, A. Graves, J. Schmidhuber. En tillämpning av återkommande neurala nätverk för diskriminerande sökordspotting. Intl. Konf. på artificiella neurala nätverk ICANN'07, 2007.
  18. D. Eck och J. Schmidhuber. Lär dig Blues långsiktiga struktur. I J. Dorronsoro, red., Proceedings of Int. Konf. på Artificial Neural Networks ICANN'02, Madrid, sid 284-289, Springer, Berlin, 2002.
  19. Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. Att lära sig icke-reguljära språk: En jämförelse mellan enkla återkommande nätverk och LSTM   // Neural Computation : journal. - 2002. - Vol. 14 , nr. 9 . - P. 2039-2041 . doi : 10.1162 / 089976602320263980 .
  20. Perez-Ortiz, JA; Gers, F.A.; Eck, D.; Schmidhuber, J. Kalman filter förbättrar LSTM-nätverksprestanda i problem som inte kan lösas av traditionella återkommande nät  //  Neural Networks : journal. - 2003. - Vol. 16 , nr. 2 . - S. 241-250 . - doi : 10.1016/s0893-6080(02)00219-8 .
  21. A. Graves, J. Schmidhuber. Offline handskriftsigenkänning med flerdimensionella återkommande neurala nätverk. Advances in Neural Information Processing Systems 22, NIPS'22, sid 545-552, Vancouver, MIT Press, 2009.
  22. A. Graves, S. Fernandez, M. Liwicki, H. Bunke, J. Schmidhuber. Obegränsad handskriftsigenkänning online med återkommande neurala nätverk. Advances in Neural Information Processing Systems 21, NIPS'21, s 577-584, 2008, MIT Press, Cambridge, MA, 2008.
  23. M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sekventiell djupinlärning för mänsklig handlingserkännande. 2nd International Workshop on Human Behaviour Understanding (HBU), AA Salah, B. Lepri red. Amsterdam, Nederländerna. pp. 29-39. Lecture Notes in Computer Science 7065. Springer. 2011
  24. Hochreiter, S.; Heusel, M.; Obermayer, K. Snabb modellbaserad proteinhomologidetektion utan anpassning  //  Bioinformatics: journal. - 2007. - Vol. 23 , nr. 14 . - P. 1728-1736 . - doi : 10.1093/bioinformatics/btm247 . — PMID 17488755 .

Länkar