Verbalisering är en minimerad beskrivning av arbetet i ett syntetiserat och redan tränat neuralt nätverk i form av flera inbördes beroende algebraiska eller logiska funktioner.
En av de största nackdelarna med tränade neurala nätverk ur många användares synvinkel är att det är svårt att extrahera en explicit och användarvänlig algoritm för att lösa problemet från ett tränat neuralt nätverk - själva neurala nätverket är denna algoritm , och om nätverksstrukturen är komplex är denna algoritm obegriplig. Ett speciellt konstruerat förenklings- och verbaliseringsförfarande gör det dock ofta möjligt att extrahera en explicit lösningsmetod.
Verbalisering utförs i synnerhet för att förbereda ett tränat och förenklat neuralt nätverk för implementering i programkod eller i form av en specialiserad elektronisk (optoelektronisk) enhet, samt för att använda resultaten i form av explicit kunskap . [1] I det här fallet är symtom ingångsvärdena för det neurala nätverket, och syndrom är värdena vid utgångarna av neuroner . Slutsyndromet är utgångsvärdet för det neurala nätverket. Verbalisering utförs vanligtvis med hjälp av specialiserade paket.
Innan man verbaliserade nätverket, vanligtvis med hjälp av produktionsregler, för vissa typer av nätverk, föreslogs det att förenkla nätverkens struktur – att tunna ut. Huvudidén med beskärning är att de element i modellen eller de neuroner i nätverket som har liten effekt på approximationsfelet kan uteslutas från modellen utan en betydande försämring av approximationens kvalitet [2] . Men samtidigt måste man komma ihåg att detta endast gäller för det problem som ska lösas. Om det kommer ny statistik för träning så kommer det glesa nätverket att förlora förmågan att generalisera, vilket det skulle ha haft om inte kopplingarna hade tappats (åtminstone motsatsen har inte bevisats). Vi talar alltså om förlustalgoritmer som kan användas för särskilda problem, men som inte kan användas oavsett problem. Ökad specialisering tappar de flexibilitet.
Den andra ordningens metoden (med känslighetsanalys baserad på beräkningen av andra derivator) föreslogs av LeCun 1990 [3] och kallades "optimal hjärnskada". Sedan utvecklades den av Hussibey [4] och fick namnet "optimal brain operation".
Något tidigare föreslogs metoder för gallring [5] och skelettbildning [6] av neurala nätverk, helt enkelt baserade på att ta bort element med de minsta vikterna ( nollordningens metoder ).
Slutligen, samma 1990, föreslog A. N. Gorban en effektiv metod baserad på analys av de första derivatorna under inlärningsförloppet med gradientmetoder och som inte kräver separat differentiering. [7] Förutom uppgiften att ta bort element löstes även andra förenklingsproblem: att minska ordlängden på vikter och signaler (grovhet), förenkla aktiveringsfunktionerna hos neuroner, erhålla tolkningsbar kunskap, etc. Hela uppsättningen av tillvägagångssätt var även kallat " kontrasterande neurala nätverk ". Beskrivningen av de viktigaste indikatorerna på känslighet presenteras i granskningen. [åtta]
E. M. Mirkes introducerade i projektet "Ideal neurocomputer ", baserat på Gorbans tillvägagångssätt och erfarenhet av att utveckla tillämpad programvara, elementet "Contrast", byggde ett bibliotek med dess huvudfunktioner och utvecklade ett beskrivningsspråk. [9]
För att förbereda ett neuralt nätverk för förenkling, visar det sig vara användbart att införa i utvärderingen av dess arbete, som minimeras under träning, strafftermer (engelska straff), straff för komplexitet. Dessa algoritmer introduceras i boken av A. N. Gorban [7] . Detta tillvägagångssätt återupptäcktes sedan och lade grunden för teorin om strukturellt lärande av Ishikawa och Zurada. [10] [11]
Decimeringsalgoritmen för Rosenblatts perceptron krävs inte. Detta beror på det faktum att, till skillnad från Rumelharts flerskiktsperceptron , är perceptronen inte ett helt uppkopplat nätverk, det vill säga antalet anslutningar från mittelementet till ingången kan direkt styras av experimenteraren beroende på uppgiftens komplexitet . Därför krävs ingen träning med extra anslutningar, och du kan direkt välja antalet anslutningar som krävs för uppgiften. Ett sådant urval görs experimentellt, om konvergens erhölls under träningen kan den reduceras ytterligare. Så snart konvergensen började kräva ett betydligt större antal iterationer, är detta ett tecken på att det önskade antalet anslutningar har uppnåtts.
En annan kontrollerad parameter som har en mer signifikant effekt på antalet anslutningar är antalet mittelement. Ju mer perceptronen kan tränas med ett mindre antal mittelement, desto mer optimal struktur erhålls.
Därför, genom att kontrollera dessa två parametrar, erhålls förtunning automatiskt, utan ytterligare algoritmer.