Delta regel

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 22 september 2018; kontroller kräver 11 redigeringar .

Deltaregeln är en  perceptroninlärningsmetod baserad på principen om gradientnedstigning över felytan . Dess vidare utveckling ledde till skapandet av metoden för återförökning .

Deltaregel

Egentligen kallas deltaregeln för den matematiska formen av notationen. Låt vektorn vara  vektorn för insignaler och vektorn  vara vektorn för signaler som bör tas emot från perceptronen under påverkan av ingångsvektorn. Här  är antalet neuroner som utgör perceptronen. Ingångssignalerna som togs emot vid perceptronens ingångar vägdes och summerades, vilket resulterade i en vektor av utgångsvärden för perceptronen. Sedan är det möjligt att bestämma felvektorn , vars dimension sammanfaller med dimensionen av vektorn för utsignaler. Komponenterna i felvektorn definieras som skillnaden mellan det förväntade och faktiska värdet av utsignalen från perceptronneuronen:

Med sådana notationer kan formeln för att justera den j:te vikten av den i:te neuronen skrivas på följande sätt:

Signalnumret varierar från ett till ingångsvektorns dimension . Neuronnumret varierar från ett till antalet neuroner . Värdet  är numret på den aktuella träningsiterationen. Således ändras vikten av ingångssignalen från neuronen i riktning mot att minska felet i proportion till värdet av det totala felet för neuronen. Ofta införs en proportionalitetsfaktor , med vilken storleken på felet multipliceras. Denna koefficient kallas inlärningshastigheten eller hastigheten [1 ] . Således är den slutliga formeln för att justera vikterna:

Generaliserad deltaregel

För att utöka utbudet av uppgifter som löses av perceptronen föreslog Widrow och Hoff [2] en sigmoidal aktiveringsfunktion för neuroner. Detta gjorde det möjligt för perceptronen att arbeta med kontinuerliga signaler, men krävde en modifiering av inlärningsalgoritmen [3] . Den modifierade algoritmen syftar till att minimera felfunktionen för root-mean square:

Denna funktion definieras av viktmatrisen . Här  är numret på neuronen och  är numret på ingången. Ytan som beskrivs av denna funktion har formen av en pseudo -paraboloid [4] . Lärandets uppgift är att hitta det globala minimum av denna yta. Ett sätt att hitta minimum är metoden för gradientnedstigning . Vikterna justeras i riktning mot ytans antigradient:

Här  är inlärningshastighetskoefficienten.

Felfunktionen är komplex och beror främst på perceptronens utsignaler. Enligt reglerna för differentiering av komplexa funktioner:

(*)

Utsignalen från varje neuron bestäms av formeln:

Här  är antalet ingångar för perceptronen,  är signalen vid den j:te ingången och  är aktiveringsfunktionen. Då får vi:

(**)

Genom att differentiera felfunktionen med värdet på utsignalen får vi:

(***)

Genom att ersätta formlerna (**) och (***) med uttryck (*), får vi ett uttryck för att justera vikten av den j:te ingången av den i:te neuronen för valfri aktiveringsfunktion [5] :

Det kan ses från denna formel att, som en aktiveringsfunktion, när man använder den generaliserade deltaregeln, måste aktiveringsfunktionen för neuroner vara kontinuerligt differentierbar längs hela x-axeln. Aktiveringsfunktioner med en enkel derivata (till exempel en logistisk kurva eller en hyperbolisk tangent) har en fördel.

På basis av deltaregeln skapade Widrow och Hopf en av de första hårdvaru -neurodatorerna Adalin ( 1960 ).

Anteckningar

  1. Nielsen, Michael A. Neural nätverk och djupt lärande . — 2015-01-01. Arkiverad från originalet den 6 september 2016.
  2. Widrow B., Hoff ME - Adaptiva omkopplingskretsar. 1969 IRE WESTCON Conference Record. — New York, 1960
  3. L. N. Yasnitsky - Introduktion till artificiell intelligens. - s. 34-36
  4. L. N. Yasnitsky - Introduktion till artificiell intelligens. - s.35
  5. L. N. Yasnitsky - Introduktion till artificiell intelligens. - s.36

Se även

Litteratur