Rekursiva neurala nätverk

Rekursiva neurala nätverk ( eng.  Rekursivt neuralt nätverk ; RvNN ) är en typ av neurala nätverk som arbetar med data av varierande längd. Rekursiva nätverksmodeller använder hierarkiska mönsterstrukturer i träning. Till exempel bilder som består av scener som kombinerar underscener som innehåller många objekt. Att avslöja scenstrukturen och dess dekonstruktion är inte en trivial uppgift. I det här fallet är det nödvändigt både att identifiera enskilda objekt och hela strukturen på scenen.

I rekursiva nätverk aktiveras neuroner med samma vikt rekursivt enligt nätverkets struktur. Under driften av det rekursiva nätverket utvecklas en modell för att förutsäga strukturer med variabel dimension och skalära strukturer genom aktivering av strukturen i enlighet med topologin. RvNN har framgångsrikt använts för att träna sekventiella strukturer och träd i naturlig språkbehandling , där fraser och meningar modelleras genom ordvektorrepresentationer . RvNN dök ursprungligen upp för den distribuerade representationen av strukturer med hjälp av matematisk logiks predikat . [1] Utvecklingen av rekursiva nätverk och de första modellerna började i mitten av 1990-talet. [2] [3]

Arkitektur

Grundläggande element

I den enklaste arkitekturen konvergerar nätverkets noder till föräldrarna genom en dold lagerviktsmatris som används upprepade gånger i hela nätverket och en icke-linjär aktiveringsfunktion av typen hyperbolisk tangent . Om c 1 och c 2  är n -dimensionella representationer av nätverksnoder, så är deras föräldrar också n - dimensionella vektorer, beräknade som

Här är W  den tränade viktmatrisen .

Denna arkitektur, med viss förbättring, används för sekventiell avkodning av naturliga bildscener eller för att strukturera meningar i naturligt språk. [fyra]

Rekursiv kaskadkorrelation (RecCC)

Rekursiv vattenfallskorrelation RecCC är ett tillvägagångssätt för att konstruera rekursiva nätverk som arbetar med tre domäner [2] , de första tillämpningarna av detta slag dök upp inom kemi [5] , och förlängningen bildar en riktad acyklisk graf . [6]

Rekursiva oövervakade nätverk

2004 föreslogs ett oövervakat rekursivt nätverksinlärningssystem . [7] [8]

Tensornätverk

Tensor rekursiva nätverk använder en tensorfunktion för alla trädnoder. [9]

Träning

Stokastisk gradientnedstigning

Stokastisk gradient descent (SGD) används vanligtvis för träning . Gradienten definieras genom end-to-end error backpropagation framework (BPTS), denna metod är en modifiering av tidsseriebackpropagation som används för att träna återkommande neurala nätverk .

Funktioner

Litteraturen bekräftar förmågan till universell approximation av återkommande nätverk över nätverk av trädtyp. [10] [11]

Relaterade modeller

Återkommande neurala nätverk

Ett recurrent neuralt nätverk är ett rekursivt nätverk med en specifik struktur - i form av en linjär kedja. Rekursiva nätverk fungerar på strukturer av en allmän typ, inklusive en hierarki, återkommande nätverk fungerar uteslutande på en linjär progression i tiden, och förbinder föregående tidpunkt med nästa genom ett dolt neuralt lager.

Tree Echo State Network

Trädekonätverket är ett effektivt exempel på rekursiva neurala nätverk [12] som använder reservoarberäkningsparadigmet.

Tillägg till grafer

Utvidgning av strukturen till grafer ger ett grafiskt neuralt nätverk (GNN), [13] , ett neuralt nätverk för grafer (NN4G), [14] och nyare konvolutionella neurala nätverk för grafer.

Länkar

  1. Goller, C.; Küchler, A. Lärande av uppgiftsberoende distribuerade representationer genom backpropagation genom struktur  //  Neural Networks, 1996. IEEE: journal. - doi : 10.1109/ICNN.1996.548916 .
  2. ↑ 1 2 Sperduti, A.; Starita, A. Övervakade neurala nätverk för klassificering av strukturer  // IEEE  -transaktioner på neurala nätverk : journal. - 1997. - 1 maj ( vol. 8 , nr 3 ). - s. 714-735 . — ISSN 1045-9227 . - doi : 10.1109/72.572108 .
  3. Frasconi, P.; Gori, M.; Sperduti, A. Ett allmänt ramverk för adaptiv bearbetning av datastrukturer  // IEEE  -transaktioner på neurala nätverk : journal. - 1998. - 1 september ( vol. 9 , nr 5 ). - s. 768-786 . — ISSN 1045-9227 . - doi : 10.1109/72.712151 .
  4. Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. Parsing av naturliga scener och naturligt språk med rekursiva neurala nätverk  (eng.)  // Den 28:e internationella konferensen om maskininlärning (ICML 2011): tidskrift.
  5. Bianucci, Anna Maria; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina. Tillämpning av kaskadkorrelationsnätverk för strukturer i kemi  (engelska)  // Applied Intelligence : journal. - 2000. - Vol. 12 , nr. 1-2 . - S. 117-147 . — ISSN 0924-669X . - doi : 10.1023/A:1008368105614 .
  6. Micheli, A.; Sona, D.; Sperduti, A. Kontextuell bearbetning av strukturerad data genom rekursiv kaskadkorrelation  // IEEE  -transaktioner på neurala nätverk : journal. - 2004. - 1 november ( vol. 15 , nr 6 ). - P. 1396-1410 . — ISSN 1045-9227 . - doi : 10.1109/TNN.2004.837783 .
  7. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickart, Marc. Rekursiva självorganiserande nätverksmodeller  (obestämd)  // Neural Networks. - 2004. - T. 17 . - S. 1061-1085 .
  8. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickart, Marc. Ett allmänt ramverk för oövervakad bearbetning av strukturerad data  //  Neurocomputing : journal. - 2004. - 1 mars ( vol. 57 ). - S. 3-35 . - doi : 10.1016/j.neucom.2004.01.008 .
  9. Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. Rekursiva djupa modeller för semantisk komposition över en sentimentträdbank  (engelska)  // EMNLP 2013 : journal.
  10. Hammer, Barbara. Lärande med återkommande neurala  nätverk . — Springer, 2007. - ISBN 9781846285677 .
  11. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro. Universell approximationsförmåga för kaskadkorrelation för strukturer  //  Neural Computation : journal. - 2005. - 1 maj ( vol. 17 , nr 5 ). - P. 1109-1159 . - doi : 10.1162/0899766053491878 .
  12. Gallicchio, Claudio; Micheli, Alessio. Tree Echo State Networks  (neopr.)  // Neurocomputing. - 2013. - 4 februari ( vol. 101 ). - S. 319-337 . - doi : 10.1016/j.neucom.2012.08.017 .
  13. Scarselli, F.; Gori, M.; Tsoi, AC; Hagenbuchner, M.; Monfardini, G. The Graph Neural Network Model  // IEEE-transaktioner på neurala  nätverk : journal. - 2009. - 1 januari ( vol. 20 , nr 1 ). - S. 61-80 . — ISSN 1045-9227 . - doi : 10.1109/TNN.2008.2005605 .
  14. Micheli, A. Neuralt nätverk för grafer: A Contextual Constructive Approach  // IEEE-transaktioner på neurala  nätverk : journal. - 2009. - 1 mars ( vol. 20 , nr 3 ). - s. 498-511 . — ISSN 1045-9227 . - doi : 10.1109/TNN.2008.2010350 .