Verbalisering av neurala nätverk

Verbalisering är en minimerad beskrivning av arbetet i ett syntetiserat och redan tränat neuralt nätverk i form av flera inbördes beroende algebraiska eller logiska funktioner.

Mål för verbalisering

En av de största nackdelarna med tränade neurala nätverk ur många användares synvinkel är att det är svårt att extrahera en explicit och användarvänlig algoritm för att lösa problemet från ett tränat neuralt nätverk - själva neurala nätverket är denna algoritm , och om nätverksstrukturen är komplex är denna algoritm obegriplig. Ett speciellt konstruerat förenklings- och verbaliseringsförfarande gör det dock ofta möjligt att extrahera en explicit lösningsmetod.

Verbalisering utförs i synnerhet för att förbereda ett tränat och förenklat neuralt nätverk för implementering i programkod eller i form av en specialiserad elektronisk (optoelektronisk) enhet, samt för att använda resultaten i form av explicit kunskap . [1] I det här fallet är symtom ingångsvärdena för det neurala nätverket, och syndrom  är värdena vid utgångarna av neuroner . Slutsyndromet är utgångsvärdet för det neurala nätverket. Verbalisering utförs vanligtvis med hjälp av specialiserade paket.

Särskilda problem med förenkling och verbalisering

  1. Förenkla den neurala nätverksarkitekturen
  2. Minska antalet insignaler
  3. Reduktion av neurala nätverksparametrar till ett litet antal utvalda värden
  4. Minskade krav på insignalens noggrannhet
  5. Formulering av explicit kunskap i form av en symtomsyndromstruktur och explicita formler för bildande av syndrom från symtom.

Gallringsalgoritmer

Innan man verbaliserade nätverket, vanligtvis med hjälp av produktionsregler, för vissa typer av nätverk, föreslogs det att förenkla nätverkens struktur – att tunna ut. Huvudidén med beskärning är att de element i modellen eller de neuroner i nätverket som har liten effekt på approximationsfelet kan uteslutas från modellen utan en betydande försämring av approximationens kvalitet [2] . Men samtidigt måste man komma ihåg att detta endast gäller för det problem som ska lösas. Om det kommer ny statistik för träning så kommer det glesa nätverket att förlora förmågan att generalisera, vilket det skulle ha haft om inte kopplingarna hade tappats (åtminstone motsatsen har inte bevisats). Vi talar alltså om förlustalgoritmer som kan användas för särskilda problem, men som inte kan användas oavsett problem. Ökad specialisering tappar de flexibilitet.

För Rumelharts flerskiktsperceptron och de som är baserade på den

Den andra ordningens metoden (med känslighetsanalys baserad på beräkningen av andra derivator) föreslogs av LeCun 1990 [3] och kallades "optimal hjärnskada". Sedan utvecklades den av Hussibey [4] och fick namnet "optimal brain operation".

Något tidigare föreslogs metoder för gallring [5] och skelettbildning [6] av neurala nätverk, helt enkelt baserade på att ta bort element med de minsta vikterna ( nollordningens metoder ).

Slutligen, samma 1990, föreslog A. N. Gorban en effektiv metod baserad på analys av de första derivatorna under inlärningsförloppet med gradientmetoder och som inte kräver separat differentiering. [7] Förutom uppgiften att ta bort element löstes även andra förenklingsproblem: att minska ordlängden på vikter och signaler (grovhet), förenkla aktiveringsfunktionerna hos neuroner, erhålla tolkningsbar kunskap, etc. Hela uppsättningen av tillvägagångssätt var även kallat " kontrasterande neurala nätverk ". Beskrivningen av de viktigaste indikatorerna på känslighet presenteras i granskningen. [åtta]

E. M. Mirkes introducerade i projektet "Ideal neurocomputer ", baserat på Gorbans tillvägagångssätt och erfarenhet av att utveckla tillämpad programvara, elementet "Contrast", byggde ett bibliotek med dess huvudfunktioner och utvecklade ett beskrivningsspråk. [9]

För att förbereda ett neuralt nätverk för förenkling, visar det sig vara användbart att införa i utvärderingen av dess arbete, som minimeras under träning, strafftermer (engelska straff), straff för komplexitet. Dessa algoritmer introduceras i boken av A. N. Gorban [7] . Detta tillvägagångssätt återupptäcktes sedan och lade grunden för teorin om strukturellt lärande av Ishikawa och Zurada. [10] [11]

För Rosenblatt-perceptronen och de som är baserade på den

Decimeringsalgoritmen för Rosenblatts perceptron krävs inte. Detta beror på det faktum att, till skillnad från Rumelharts flerskiktsperceptron , är perceptronen inte ett helt uppkopplat nätverk, det vill säga antalet anslutningar från mittelementet till ingången kan direkt styras av experimenteraren beroende på uppgiftens komplexitet . Därför krävs ingen träning med extra anslutningar, och du kan direkt välja antalet anslutningar som krävs för uppgiften. Ett sådant urval görs experimentellt, om konvergens erhölls under träningen kan den reduceras ytterligare. Så snart konvergensen började kräva ett betydligt större antal iterationer, är detta ett tecken på att det önskade antalet anslutningar har uppnåtts.

En annan kontrollerad parameter som har en mer signifikant effekt på antalet anslutningar är antalet mittelement. Ju mer perceptronen kan tränas med ett mindre antal mittelement, desto mer optimal struktur erhålls.

Därför, genom att kontrollera dessa två parametrar, erhålls förtunning automatiskt, utan ytterligare algoritmer.

Anteckningar

  1. Mirkes E. M. , Logiskt transparenta neurala nätverk och produktion av explicit kunskap från data Arkivkopia daterad 25 februari 2008 på Wayback Machine , I boken: Neuroinformatics / A. N. Gorban, V. L. Dunin-Barkovsky, A. N Kirdin och andra - Novosibirsk : Vetenskap. Siberian Enterprise of the Russian Academy of Sciences, 1998. - 296 sid. ISBN 5-02-031410-2
  2. Optimal gallring av neurala nätverk . Hämtad 30 augusti 2008. Arkiverad från originalet 18 maj 2011.
  3. LeCun Y., Denker J. S., Solla S. A. Optimal hjärnskada Arkiverad 20 maj 2008 på Wayback Machine  / Touretzky D. S. ed., Advances in Neural Information Processing Systems 2. Morgan Kaufmann, San Mateo, CA. 1990. s. 598-605.
  4. Hassibi B., Stork D. G. Andra ordningens derivat för nätverksbeskärning: Optimal brain surgeon Arkiverad 7 maj 2008 på Wayback Machine  / NIPS 5. 1993.
  5. Sietsma J., Dow RJF, Neural nätbeskärning - varför och hur. I: Proc. IJCNN'88, San Diego, CA, IEEE, Vol.1. - s. 325-333.
  6. Mozer MC, Smolensky P. Skelettisering: en teknik för att trimma fettet från ett nätverk via relevansbedömning. I: Advances in Neural Network Information Processing Systems, Morgan Kaufmann, 1989. Vol.1, pp.107-115.
  7. 1 2 Gorban A.N., Learning neural networks Arkiverad 9 augusti 2010 på Wayback Machine . M.: red. USSR-USA Joint Venture "Paragraph", 1990. 160 sid.
  8. Gorban AN, Mirkes Eu. M., Tsaregorodtsev VG Generering av explicit kunskap från empiriska data genom beskärning av träningsbara neurala nätverk Arkiverad 17 februari 2016 på Wayback Machine I: Proc. IJCNN'99, Washington DC, juli 1999, IEEE, vol. 6, sid. 4393-4398.
  9. Mirkes E.M., Neurocomputer. Utkast till standard. Arkivexemplar daterad 15 juni 2009 på Wayback Machine - Novosibirsk: Nauka, Siberian Publishing Company RAS, 1999 .- 337 sid. ISBN 5-02-031409-9 (Kapitel 9: "Kontraster") Andra kopior online: Arkiverad kopia (länk ej tillgänglig) . Hämtad 15 oktober 2008. Arkiverad från originalet 3 juli 2009.   .
  10. Ishikawa S., Structural learning with forgetting, Neural Networks, 1996, Vol. 9, 3, 509-521.
  11. Miller DA, Zurada, JM, Ett dynamiskt systemperspektiv av strukturellt lärande med glömma, IEEE Transactions on Neural Networks, Vol. 9, 3, 1998, 508-515.