Delta regel

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 22 september 2018; kontroller kräver 11 redigeringar .

Deltaregeln är en perceptroninlärningsmetod baserad på principen om gradientnedstigning över felytan . Dess vidare utveckling ledde till skapandet av metoden för återförökning .

Deltaregel

Egentligen kallas deltaregeln för den matematiska formen av notationen. Låt vektorn vara vektorn för insignaler och vektorn vara vektorn för signaler som bör tas emot från perceptronen under påverkan av ingångsvektorn. Här är antalet neuroner som utgör perceptronen. Ingångssignalerna som togs emot vid perceptronens ingångar vägdes och summerades, vilket resulterade i en vektor av utgångsvärden för perceptronen. Sedan är det möjligt att bestämma felvektorn , vars dimension sammanfaller med dimensionen av vektorn för utsignaler. Komponenterna i felvektorn definieras som skillnaden mellan det förväntade och faktiska värdet av utsignalen från perceptronneuronen: ${\mathbf {X}}={x_{1},x_{2},...x_{r},...x_{m}}$ ${\mathbf {D}}={d_{1},d_{2},...d_{k},...d_{n}}$ $n$ ${\mathbf {Y}}={y_{1},y_{2},...y_{k},...y_{n}}$ ${\mathbf {\mathrm{E} }}={e_{1},e_{2},...e_{k},...e_{n}}$

{\mathbf {\mathrm{E} =DY))

Med sådana notationer kan formeln för att justera den j:te vikten av den i:te neuronen skrivas på följande sätt:

w_{j}(t+1)=w_{j}(t)+e_{i}x_{j}

Signalnumret varierar från ett till ingångsvektorns dimension . Neuronnumret varierar från ett till antalet neuroner . Värdet är numret på den aktuella träningsiterationen. Således ändras vikten av ingångssignalen från neuronen i riktning mot att minska felet i proportion till värdet av det totala felet för neuronen. Ofta införs en proportionalitetsfaktor , med vilken storleken på felet multipliceras. Denna koefficient kallas inlärningshastigheten eller hastigheten [1 ] . Således är den slutliga formeln för att justera vikterna: $j$ $m$ $i$ $n$ $t$ $\eta$

w_{j}(t+1)=w_{j}(t)+\eta e_{i}x_{j}

Generaliserad deltaregel

För att utöka utbudet av uppgifter som löses av perceptronen föreslog Widrow och Hoff [2] en sigmoidal aktiveringsfunktion för neuroner. Detta gjorde det möjligt för perceptronen att arbeta med kontinuerliga signaler, men krävde en modifiering av inlärningsalgoritmen [3] . Den modifierade algoritmen syftar till att minimera felfunktionen för root-mean square:

\epsilon ={\frac {1}{2}}\sum _{{i=1}}^{{n}}{(d_{i}-y_{i})^{2}}

Denna funktion definieras av viktmatrisen . Här är numret på neuronen och är numret på ingången. Ytan som beskrivs av denna funktion har formen av en pseudo -paraboloid [4] . Lärandets uppgift är att hitta det globala minimum av denna yta. Ett sätt att hitta minimum är metoden för gradientnedstigning . Vikterna justeras i riktning mot ytans antigradient: $w_{ij}$ $i$ $j$

\Delta w_{{ij}}=-\eta {\frac {\partial \epsilon }{\partial w_{{ij))))

Här är inlärningshastighetskoefficienten. $\eta$

Felfunktionen är komplex och beror främst på perceptronens utsignaler. Enligt reglerna för differentiering av komplexa funktioner:

{\frac {\partial \epsilon }{\partial w_{{ij))))={\frac {\partial \epsilon }{\partial y_{i))}{\frac {\partial y_{i)) {\partial w_{{ij))))

(*)

Utsignalen från varje neuron bestäms av formeln: $y_{i}$

y_{i}=\operatörsnamn {f}(S_{i}),S_{i}=\summa _{{j=1}}^{{m}}{w_{{ij}}x_{j}}

Här är antalet ingångar för perceptronen, är signalen vid den j:te ingången och är aktiveringsfunktionen. Då får vi: $m$ $x_{j}$ $\operatörsnamn {f}(S)$

{\frac {\partial y_{i}}{\partial w_{{ij}}}}=({\frac {\partial \operatörsnamn {f}(S)}{\partial S)))\mid _{ {S=S_{i}}}{\frac {\partial S_{i}}{\partial w_{{ij}}}}=f^{\prime }(S_{i})x_{j}

(**)

Genom att differentiera felfunktionen med värdet på utsignalen får vi:

{\frac {\partial \epsilon }{\partial y_{i}}}=-(d_{i}-y_{i})

(***)

Genom att ersätta formlerna (**) och (***) med uttryck (*), får vi ett uttryck för att justera vikten av den j:te ingången av den i:te neuronen för valfri aktiveringsfunktion [5] :

\Delta w_{{ij}}=\eta (d_{i}-y_{i})f^{\prime }(S_{i})x_{j}

Det kan ses från denna formel att, som en aktiveringsfunktion, när man använder den generaliserade deltaregeln, måste aktiveringsfunktionen för neuroner vara kontinuerligt differentierbar längs hela x-axeln. Aktiveringsfunktioner med en enkel derivata (till exempel en logistisk kurva eller en hyperbolisk tangent) har en fördel.

På basis av deltaregeln skapade Widrow och Hopf en av de första hårdvaru -neurodatorerna Adalin ( 1960 ).

Anteckningar

↑ Nielsen, Michael A. Neural nätverk och djupt lärande . — 2015-01-01. Arkiverad från originalet den 6 september 2016.
↑ Widrow B., Hoff ME - Adaptiva omkopplingskretsar. 1969 IRE WESTCON Conference Record. — New York, 1960
↑ L. N. Yasnitsky - Introduktion till artificiell intelligens. - s. 34-36
↑ L. N. Yasnitsky - Introduktion till artificiell intelligens. - s.35
↑ L. N. Yasnitsky - Introduktion till artificiell intelligens. - s.36

Se även

Litteratur

Rosenblatt F. Principer för neurodynamik: Perceptroner och teorin om hjärnans mekanismer. Washington, DC: Spartan Books (1962).
Russell, Ingrid. "Deltaregeln". University of Hartford. Arkiverad från originalet 4 mars 2016. Hämtad 5 november 2012.
Golovko, V. A. Neurala nätverk: träning, organisation och tillämpning: Bok 4: Lärobok för universitet i riktning mot "Applied Mathematics and Physics" / V. A. Golovko; Parvel. ed. A. I. Galushkin. - M.: IPRZhR, 2001. – 256 sid. - (Neurodatorer och deras applikationer): 5-93108-05-8.
Osovsky S. Neurala nätverk för informationsbehandling (2002)
Hebb, D.O. Organisationen av beteende: en neuropsykologisk teori. New York (2002) (originalutgåva - 1949)
Hebb, D.O. Konditionerade och obetingade reflexer och hämning. Opublicerad MA-avhandling, McGill University, Montreal, Quebec, (1932)
Lakhmi C. Jain; NM Martin Fusion av neurala nätverk, fuzzy system och genetiska algoritmer: industriella tillämpningar. — CRC Press, CRC Press LLC, 1998