Perceptron

Perceptron , eller perceptron [nb 1] ( eng. perceptron från lat. perceptio - perception ; germ . Perzeptron ) - en matematisk eller datormodell av informationsuppfattning av hjärnan ( cybernetic model of the brain ), föreslagen av Frank Rosenblatt 1958 och implementerades först i formen elektronisk maskin "Mark-1" [ nb 2] 1960 . Perceptronen blev en av de första modellerna av neurala nätverk , och Mark-1 blev världens första neurodator .

Perceptronen består av tre typer av element, nämligen: signalerna som kommer från sensorerna överförs till de associativa elementen och sedan till de reagerande elementen. Således tillåter perceptroner dig att skapa en uppsättning "associationer" mellan ingångsstimuli och det önskade utgångssvaret. I biologiska termer motsvarar detta omvandlingen av till exempel visuell information till ett fysiologiskt svar från motorneuroner . Enligt modern terminologi kan perceptroner klassificeras som artificiella neurala nätverk:

Mot bakgrund av neurala nätverks växande popularitet 1969 publicerades en bok av Marvin Minsky och Seymour Papert , som visade de grundläggande begränsningarna för perceptroner. Detta har lett till en förändring i intresset hos forskare inom artificiell intelligens inom området för symbolisk beräkning , mitt emot neurala nätverk [nb 4] . Dessutom, på grund av komplexiteten i den matematiska studien av perceptroner, liksom avsaknaden av allmänt accepterad terminologi, har olika felaktigheter och missuppfattningar uppstått .

Därefter återupptogs intresset för neurala nätverk, och i synnerhet Rosenblatts arbete. Så till exempel utvecklas biodatorer snabbt , som i sin teoretiska beräkningsgrund bland annat bygger på neurala nätverk, och perceptronen reproduceras på basis av bakteriohodopsin-innehållande filmer .

Perceptronens tillkomst

År 1943 föreslog Warren McCulloch och Walter Pitts konceptet med ett artificiellt neuralt nätverk i sin artikel "A logical calculus of ideas relating to neural activity" [1] . I synnerhet föreslog de en artificiell neuronmodell . Donald Hebb beskrev i sin uppsats från 1949 "Organization of Behavior" [2] de grundläggande principerna för neuroninlärning.

Dessa idéer utvecklades några år senare av den amerikanske neurofysiologen Frank Rosenblatt . Han föreslog ett schema för en enhet som simulerade processen för mänsklig perception och kallade den en "perceptron". Perceptronen överförde signaler från fotoceller , som var ett sensoriskt fält, till block av elektromekaniska minnesceller. Dessa celler var slumpmässigt kopplade till varandra i enlighet med principerna för connectivism . 1957 , vid Cornell Aeronautics Laboratory, genomfördes en simulering av driften av en perceptron på en IBM 704 -dator framgångsrikt , och två år senare, den 23 juni 1960, vid Cornell University , demonstrerades den första neurodatorn - Mark-1 , som kunde känna igen några bokstäver i det engelska alfabetet [3] [4] .

För att "lära" perceptronen att klassificera bilder utvecklades en speciell iterativ trial and error inlärningsmetod, som påminner om processen för mänsklig inlärning - felkorrigeringsmetoden [5] . Dessutom kunde perceptronen vid igenkänning av en viss bokstav lyfta fram de karakteristiska egenskaperna hos bokstaven som statistiskt sett var vanligare än obetydliga skillnader i enskilda fall. Således kunde perceptronen generalisera bokstäver skrivna på olika sätt (handstil) till en generaliserad bild. Perceptronens möjligheter var dock begränsade: maskinen kunde inte på ett tillförlitligt sätt känna igen delvis stängda bokstäver, såväl som bokstäver av en annan storlek, placerade med ett skift eller rotation, än de som användes vid utbildningsstadiet [6] .

Rapporten om de första resultaten dök upp redan 1958 - då publicerade Rosenblatt artikeln "Perceptron: En probabilistisk modell för att lagra och organisera information i hjärnan" [7] . Men han beskriver sina teorier och antaganden om processerna för perception och perceptroner mer i detalj 1962 i boken "Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms". I boken betraktar han inte bara färdiga perceptronmodeller med ett dolt lager, utan också flerlagersperceptroner med korskopplingar (tredje kapitel) och omvända (fjärde kapitel). Boken introducerar också ett antal viktiga idéer och teorem, till exempel är perceptronkonvergenssatsen [8] bevisad .

Beskrivning av den elementära perceptronen

En elementär perceptron består av tre typer av element: S-element, A-element och ett R-element. S-element är ett lager av sensorer eller receptorer. I en fysisk utföringsform motsvarar de till exempel fotokänsliga celler i ögats näthinna eller fotoresistorer i en kamerauppsättning. Varje receptor kan vara i ett av två tillstånd - vila eller excitation , och endast i det senare fallet överför den en enda signal till nästa lager, till associativa element.

A-element kallas associativa, eftersom varje sådant element som regel motsvarar en hel uppsättning (association) av S-element. A-elementet aktiveras så snart antalet signaler från S-elementen vid dess ingång överstiger ett visst värde [nb 5] . Således, om en uppsättning motsvarande S-element är placerade på sensoriska fältet i form av bokstaven "D", aktiveras A-elementet om ett tillräckligt antal receptorer har rapporterat utseendet av en "vit ljusfläck" i deras närhet, det vill säga, A-elementet kommer så att säga associeras med närvaron / frånvaron av bokstaven "D" i något område. $\theta$

Signalerna från de exciterade A-elementen sänds i sin tur till adderaren R, och signalen från det i:te associativa elementet sänds med en koefficient [9] . Denna koefficient kallas vikten av A-R-bindningen. $w_{{i}}$

Precis som A-elementen, beräknar R-elementet summan av värdena för ingångssignalerna multiplicerat med vikterna ( linjär form ). R-elementet, och med det den elementära perceptronen, matar ut "1" om den linjära formen överskrider tröskeln , annars blir utsignalen "-1". Matematiskt kan funktionen som implementeras av R-elementet skrivas på följande sätt: $\theta$

f(x)=\operatörsnamn {tecken} (\summa _{i=1}^{n}w_{i}x_{i}-\theta )

Träningen av en elementär perceptron består i att ändra viktkoefficienterna för A–R-bindningarna. Vikterna för S–A-länkarna (som kan ta värdena {−1; 0; +1}) och tröskelvärdena för A-elementen väljs slumpmässigt i början och ändras sedan inte. (Se nedan för en beskrivning av algoritmen .) $w_{i}$

Efter träning är perceptronen redo att arbeta i igenkänningsläge [10] eller generaliseringsläge [11] . I detta läge presenteras perceptronen med tidigare okända objekt, och perceptronen måste bestämma vilken klass de tillhör. Perceptronens arbete är som följer: när ett objekt presenteras sänder de exciterade A-elementen en signal till R-elementet, lika med summan av motsvarande koefficienter . Om denna summa är positiv, så fattas beslutet att det givna objektet tillhör den första klassen, och om den är negativ, då till den andra [12] . $w_{i}$

Grundläggande begrepp i teorin om perceptroner

Allvarlig bekantskap med teorin om perceptroner kräver kunskap om grundläggande definitioner och teorem, vars helhet är grunden för alla efterföljande typer av artificiella neurala nätverk . Men, åtminstone, är det nödvändigt att förstå åtminstone från synvinkel signalteori , som är original, det vill säga beskrivs av författaren till perceptronen F. Rosenblatt.

Beskrivning baserad på signaler

Låt oss först definiera de ingående elementen i perceptronen, som är specialfall av en artificiell neuron med en tröskelöverföringsfunktion .

Ett enkelt S-element (sensor) är ett känsligt element som, när det utsätts för någon typ av energi (till exempel ljus, ljud, tryck, värme, etc.), genererar en signal. Om insignalen överskrider en viss tröskel θ får vi +1 vid elementets utgång, annars -0 [13] .
Ett enkelt A-element (associativt) är ett logiskt beslutselement som ger en utsignal +1 när den algebraiska summan av dess insignaler överstiger ett visst tröskelvärde θ (elementet sägs vara aktivt ), annars är utsignalen noll [ 13] .
Ett enkelt R-element (reagerande, det vill säga aktivt) är ett element som producerar en +1-signal om summan av dess insignaler är strikt positiv, och en -1-signal om summan av dess insignaler är strikt negativ. Om summan av ingångarna är noll är utgången antingen noll eller odefinierad [13] .

Om vi vid utgången av något element får 1, säger vi att elementet är aktivt eller exciterat .

Alla betraktade element kallas enkla , eftersom de implementerar hoppfunktioner . Rosenblatt hävdade också att andra typer av funktioner, såsom linjära [14] , kan krävas för att lösa mer komplexa problem .

Som ett resultat introducerade Rosenblatt följande definitioner:

Perceptronen är ett nätverk bestående av S-, A-, R-element med en variabel interaktionsmatris W (vars element är viktkoefficienter) som bestäms av sekvensen av tidigare nätverksaktivitetstillstånd [14] [15] . $w_{ij}$
En perceptron med serielänkar är ett system där alla länkar som utgår från element med ett logiskt avstånd d från närmaste S-element slutar på element med ett logiskt avstånd d+1 från närmaste S-element [15] .
En enkel perceptron är vilket system som helst som uppfyller följande fem villkor:
1. det finns bara ett R-element i systemet (naturligtvis är det kopplat av alla A-element);
2. systemet är en perceptron med serielänkar som endast går från S-element till A-element och från A-element till R-element;
3. vikten av alla länkar från S-element till A-element (S-A-länkar) är oförändrade;
4. sändningstiden för varje länk är antingen noll eller en fast konstant ; $\tau$
5. alla aktiverande funktioner för S-, A-, R- element har formen $U_{i}(t)=f(a_{i}(t))$ $a_{{i}}(t)$ $u_{{i}}$
En elementär perceptron är en enkel perceptron där alla element är enkla . I detta fall har dess aktiveringsfunktion formen [17] . $c_{ij}(t)=U_{i}(t-\tau )w_{ij}(t)$

Dessutom kan du peka på följande begrepp som föreslås i boken och som senare utvecklades inom ramen för teorin om neurala nätverk:

En korskopplad perceptron är ett system där det finns kopplingar mellan element av samma typ (S, A eller R) belägna på samma logiska avstånd från S-element, och alla andra kopplingar är av sekventiell typ [15] .
En återkopplingsperceptron är ett system där det finns minst en koppling från ett logiskt mer avlägset element till ett mindre avlägset [15] . Enligt modern terminologi kallas sådana nätverk för återkommande .
En perceptron med variabla SA-kopplingar är ett system där begränsningen av fasta anslutningar från S-element till A-element tas bort. Det har bevisats att genom att optimera S-A-bindningar är det möjligt att uppnå en betydande förbättring av perceptronens egenskaper [18] .

Beskrivning baserad på predikat

Marvin Minsky studerade egenskaperna hos parallell beräkning , varav perceptronen var ett specialfall vid den tiden. För att analysera dess egenskaper var han tvungen att omformulera teorin om perceptroner på predikatspråket . Kärnan i tillvägagångssättet var följande: [nb 6] [19]

en uppsättning signaler från S-element var associerad med variabeln X;
varje A-element var associerat med ett predikat φ(X) (phi från x) , kallat ett särskilt predikat ;
varje R-element var associerat med ett predikat ψ (psi) , beroende på särskilda predikat;
slutligen kallades en anordning som kan beräkna alla predikat av typen ψ en perceptron .

Som applicerad på den "visuella" perceptronen symboliserade variabeln X bilden av någon geometrisk figur ( stimulus ). Ett privat predikat tillät var och en att "känna igen" sin egen figur. Predikatet ψ betydde situationen när den linjära kombinationen ( — transmissionskoefficienter) överskred en viss tröskel θ. $a_{{1}}\phi _{{1}}+\ldots +a_{{n}}\phi _{{n}}$ $a_{{i}}$

Forskare har identifierat 5 familjer av perceptroner som, enligt deras åsikt, har intressanta egenskaper: [20]

Perceptroner begränsade i diameter - varje figur X, som känns igen av särskilda predikat, överstiger inte något fast värde i diameter.
Perceptroner av gränsad ordning - varje särskilt predikat beror på ett begränsat antal punkter från X.
Gamba perceptroner - varje särskilt predikat måste vara en linjär tröskelfunktion, det vill säga en mini-perceptron.
Slumpmässiga perceptroner är perceptroner av begränsad ordning, där partiella predikat är slumpmässigt valda booleska funktioner. Boken noterar att det var denna modell som studerades mest grundligt av Rosenblatts grupp.
Begränsade perceptroner - uppsättningen av partiella predikat är oändlig, och uppsättningen av möjliga värden för koefficienterna är ändlig. $a_{{i}}$

Även om en sådan matematisk apparat gjorde det möjligt att tillämpa analysen endast på den elementära Rosenblatt-perceptronen, avslöjade den många grundläggande begränsningar för parallell beräkning, från vilka ingen typ av moderna artificiella neurala nätverk är fri.

Historisk klassificering

Konceptet med en perceptron har en intressant men föga avundsvärd historia. Som ett resultat av den outvecklade terminologin för neurala nätverk under de senaste åren, hård kritik och missförstånd av perceptronforskningens uppgifter, och ibland falsk pressbevakning, har den ursprungliga innebörden av detta begrepp förvrängts. Genom att jämföra utvecklingen av Rosenblatt och moderna recensioner och artiklar kan vi särskilja fyra ganska isolerade klasser av perceptroner:

Perceptron med ett dolt lager Detta är den klassiska perceptronen, som det mesta av Rosenblatts bok ägnas åt, och som tas med i den här artikeln: den har ett lager av S-, A- och R-element. Enkelskiktsperceptron Detta är en modell där ingångselementen är direkt anslutna till utgångselementen med hjälp av ett viktsystem. Det är det enklaste feed-forward-nätverket - en linjär klassificerare och ett specialfall av den klassiska perceptronen, där varje S-element unikt motsvarar ett A-element, S-A-länkar har vikten +1 och alla A-element har ett tröskelvärde θ = 1. Enkellagersperceptroner är faktiskt formella neuroner , dvs McCulloch-Pitts tröskelelement. De har många begränsningar, i synnerhet kan de inte identifiera situationen när olika signaler appliceras på deras ingångar ("XOR-uppgift", se nedan ). Flerskiktsperceptron (enligt Rosenblatt) Detta är en perceptron med ytterligare lager av A-element. Rosenblatt analyserade det i den tredje delen av sin bok. Flerskiktsperceptron (enligt Rumelhart) Detta är en perceptron i vilken det finns ytterligare lager av A-element, dessutom utförs träningen av ett sådant nätverk enligt metoden för felåterförökning , och alla lager av perceptronen (inklusive S-A) tränas. Det är ett specialfall av Rosenblatts flerskiktsperceptron.

För närvarande, i litteraturen, förstås termen "perceptron" oftast som en enkelskiktsperceptron ( engelska Single-layer perceptron ), dessutom finns det en vanlig missuppfattning att det var denna enklaste typ av modell som föreslagits av Rosenblatt. I motsats till en enlagers, sätter de en "flerlagersperceptron" ( eng. Multilayer perceptron ), återigen, vilket oftast betyder Rumelharts flerlagersperceptron, inte Rosenblatts. Den klassiska perceptronen i en sådan dikotomi kallas flerskikts.

Inlärningsalgoritmer

En viktig egenskap hos alla neurala nätverk är förmågan att lära sig . Inlärningsprocessen är en procedur för att justera vikter och trösklar för att minska skillnaden mellan den önskade (mål) och de resulterande utdatavektorerna. I sin bok försökte Rosenblatt klassificera olika perceptroninlärningsalgoritmer och kallade dem förstärkningssystem.

Ett belöningssystem är vilken uppsättning regler som helst som baseras på vilka interaktionsmatrisen (eller minnestillståndet) för en perceptron kan ändras över tid [21] .

Rosenblatt beskrev dessa förstärkningssystem och specificerade deras möjliga typer, baserat på D. Hebbs idéer om inlärning som föreslogs av honom 1949 [2] , som kan omformuleras till följande tvådelade regel:

Om två neuroner på vardera sidan av en synaps (förbindelse) avfyras samtidigt (det vill säga synkront), ökar styrkan i den anslutningen.
Om två neuroner på vardera sidan av en synaps avfyras asynkront, då försvagas den synapsen eller dör helt och hållet [22] .

Övervakat lärande

Den klassiska metoden för att träna en perceptron är felkorrigeringsmetoden [8] . Det är en typ av övervakad inlärning där tyngden av sambandet inte ändras så länge som den aktuella reaktionen av perceptronen förblir korrekt. När en felaktig reaktion inträffar ändras vikten med ett och tecknet (+/-) bestäms mitt emot tecknet för felet.

Anta att vi vill träna perceptronen att separera två klasser av objekt så att när objekt av den första klassen presenteras, är utsignalen från perceptronen positiv (+1), och när objekt av den andra klassen presenteras är den negativ ( −1). För att göra detta kommer vi att köra följande algoritm: [5]

Vi väljer slumpmässigt trösklar för A-element och upprättar S-A-förbindelser (de kommer inte att ändras ytterligare).
De initiala koefficienterna antas vara lika med noll. $w_{i}$
Vi presenterar ett träningsexempel : objekt (till exempel cirklar eller fyrkanter) som anger vilken klass de tillhör.
- Vi visar perceptronen ett objekt av den första klassen. I det här fallet kommer vissa A-element att vara exalterade. Koefficienterna som motsvarar dessa exciterade element ökas med 1. $w_{i}$
- Vi presenterar ett objekt av den andra klassen och koefficienterna för de A-element som exciteras under denna visning reduceras med 1. $w_{i}$
Båda delarna av steg 3 kommer att utföras för hela träningsuppsättningen. Som ett resultat av träning kommer värdena för anslutningsvikter att bildas . $w_{i}$

Perceptronkonvergenssatsen [8] , beskriven och bevisad av F. Rosenblatt (med deltagande av Block, Joseph, Kesten och andra forskare som arbetade med honom), visar att en elementär perceptron tränas enligt en sådan algoritm, oavsett den initiala viktkoefficienternas tillstånd och sekvensen av incitament kommer alltid att leda till att en lösning uppnås inom en begränsad tidsperiod.

Lärande utan lärare

Förutom den klassiska perceptroninlärningsmetoden introducerade Rosenblatt också begreppet oövervakat lärande och föreslog följande inlärningsmetod:

Alfaförstärkningssystemet är ett förstärkningssystem där vikterna för alla aktiva anslutningar som leder till elementet ändras med samma mängd r, och vikterna för inaktiva anslutningar inte ändras under denna tid [23] .

c_{ij}

u_{j}

Sedan, med utvecklingen av konceptet med en flerskiktsperceptron , modifierades alfasystemet och det blev känt som deltaregeln . Modifieringen utfördes för att göra inlärningsfunktionen differentierbar (till exempel sigmoid ), vilket i sin tur är nödvändigt för att tillämpa gradient descent- metoden , på grund av vilken mer än ett lager kan tränas.

Backpropagation metod

För att träna flerskiktsnätverk föreslog ett antal forskare, inklusive D. Rumelhart , en övervakad gradientinlärningsalgoritm som leder en felsignal som beräknas av perceptronens utgångar till dess ingångar , lager för lager. Detta är nu den mest populära metoden för att träna flerskiktsperceptroner. Dess fördel är att den kan träna alla lager i det neurala nätverket, och det är lätt att beräkna det lokalt. Denna metod är emellertid mycket tidskrävande, dessutom är det nödvändigt att överföringsfunktionen hos neuroner är differentierbar för dess tillämpning. Samtidigt, i perceptroner, var det nödvändigt att överge den binära signalen och använda kontinuerliga värden vid ingången [24] .

Traditionella vanföreställningar

Som ett resultat av populariseringen av artificiella neurala nätverk av journalister och marknadsförare gjordes ett antal felaktigheter, som, med otillräckliga studier av originalverk om detta ämne, misstolkades av unga (på den tiden) forskare. Som ett resultat kan man till denna dag möta en otillräckligt djup tolkning av perceptronens funktionalitet jämfört med andra neurala nätverk som utvecklats under efterföljande år.[ när? ]

Terminologiska felaktigheter

Det vanligaste terminologifelet är att definiera en perceptron som ett neuralt nätverk utan dolda lager (enkellagersperceptron, se ovan ). Detta fel beror på otillräckligt utvecklad terminologi inom området för neurala nätverk i ett tidigt skede av deras utveckling. F. Wasserman gjorde ett försök att klassificera olika typer av neurala nätverk på ett visst sätt:

Som framgår av publikationerna finns det inget allmänt accepterat sätt att räkna antalet lager i nätverket. Ett flerskiktsnätverk består av alternerande uppsättningar av neuroner och vikter. Inmatningsskiktet utför inte summering. Dessa neuroner fungerar endast som grenar för den första uppsättningen vikter och påverkar inte nätverkets beräkningsförmåga. Av denna anledning beaktas inte det första lagret när man räknar lager, och nätverket anses vara tvålager, eftersom endast två lager utför beräkningar. Vidare anses skiktets vikter vara associerade med neuronerna som följer dem. Därför består lagret av en uppsättning vikter följt av neuroner som summerar de viktade signalerna [25] .

Som ett resultat av denna representation föll perceptronen under definitionen av ett "enlagers neuralt nätverk". Detta är delvis sant eftersom det inte har dolda lager av inlärningsneuroner (vars vikter anpassar sig till uppgiften). Och därför kan hela uppsättningen av fasta anslutningar av systemet från S-till A-element logiskt ersättas av en uppsättning (modifierad enligt en strikt regel) av nya insignaler som kommer omedelbart till A-element (och eliminerar därmed det första lagret av anslutningar helt och hållet). Men här tar de bara inte hänsyn till att en sådan modifiering gör den icke-linjära representationen av problemet till en linjär.

Genom att helt enkelt ignorera icke-träningsbara lager med fasta anslutningar (i en elementär perceptron är dessa S-A-anslutningar) kan du dra felaktiga slutsatser om det neurala nätverkets kapacitet. Så Minsky agerade mycket korrekt och omformulerade A-elementet som ett predikat (det vill säga en funktion); tvärtom, Wasserman har redan tappat denna idé och har ett A-element - bara en ingång (nästan motsvarande ett S-element). Med sådan terminologisk förvirring förbises det faktum att perceptronen mappar det receptiva fältet för S-element till det associativa fältet för A-element, som ett resultat av vilket varje linjärt oskiljaktigt problem omvandlas till ett linjärt separerbart.

Funktionella misstag

De flesta funktionella missuppfattningar kokar ner till den förmodade omöjligheten att lösa ett linjärt oskiljaktigt problem med en perceptron. Men det finns många varianter på detta tema, låt oss överväga de viktigaste.

XOR problem

Missuppfattning: Perceptronen är inte kapabel att lösa " XOR-problemet ".

En mycket vanlig missuppfattning. Bilden till höger visar en perceptronlösning på detta problem. Denna missuppfattning uppstår, för det första, på grund av det faktum att Minskys definition av en perceptron är felaktigt tolkad (se ovan ), nämligen predikat omedelbart likställer ingångar, även om Minskys predikat är en funktion som identifierar en hel uppsättning ingångsvärden [nb 7 ] . För det andra, på grund av det faktum att den klassiska Rosenblatt-perceptronen förväxlas med en enkelskiktsperceptron (på grund av den terminologiska felaktigheten som beskrivs ovan).

Särskild uppmärksamhet bör ägnas det faktum att "enskiktsperceptron" i modern terminologi och "enskiktsperceptron" i Wassermans terminologi är olika objekt. Och objektet som avbildas i illustrationen, i Wassermans terminologi, är en tvåskikts perceptron.

Lärbarhet för linjärt oskiljaktiga problem

Missuppfattning: genom att välja slumpmässiga vikter kan inlärning uppnås för linjärt oskiljaktiga (i allmänhet alla) uppgifter, men bara om du har tur , och i nya variabler (utgångar av A-neuroner) visar sig uppgiften vara linjärt separerbar. Men du kanske inte har tur.

Perceptronkonvergenssatsen [8] bevisar att det inte finns och inte kan finnas någon "kan inte ha tur"; när A-elementen är lika med antalet stimuli och den icke-speciella G-matrisen är sannolikheten för lösningen 100 %. Det vill säga, när receptorfältet mappas till ett associativt fält som är större med en dimension av en slumpmässig (icke-linjär) operator, förvandlas det icke-linjära problemet till ett linjärt separerbart. Och nästa träningsbara lager hittar redan en linjär lösning i ett annat inmatningsutrymme. Till exempel, träning av en perceptron för att lösa "XOR-problemet" (se illustrationen) utförs i följande steg:

Vikter	Iterationer
Vikter	ett			2	3		fyra		5
w1	0	ett	ett	ett	ett	2	2	2	2
w2	0	0	ett	ett	ett	ett	ett	2	2
w3	−1	0	ett	0	−1	0	−1	0	−1
Ingångssignaler (x, y)	elva	0, 1	tio	elva	elva	0, 1	elva	tio	elva

Lärbarhet från några exempel

Missuppfattning: om dimensionen av input är ganska hög i ett problem och det finns få träningsexempel, så i ett sådant "svagt fyllt" utrymme kanske antalet framgångar inte visar sig vara litet. Detta indikerar endast ett särskilt fall av perceptronens lämplighet, och inte dess universalitet.

Detta argument kan enkelt testas på ett testproblem som kallas "schackbräde" eller "svamp med vatten" [26] [nb 8] :

Givet en kedja av 2· N ettor eller nollor som matas parallellt med perceptronens ingångar. Om den här kedjan är spegelsymmetrisk kring mitten, är utgången +1, annars 0. Träningsexempel är alla (detta är viktigt) kedjor.

2^{{2N}}

Det kan finnas variationer av denna uppgift, till exempel:

Låt oss ta en svartvit bild med storleken 256×256 element ( pixlar ). Indata för perceptronen kommer att vara punktens koordinater (8 bitar + 8 bitar, totalt 16 S-element behövs), vid utgången kommer vi att kräva punktens färg. Vi tränar perceptronen för alla punkter (hela bilden). Som ett resultat har vi 65 536 olika stimulus-svarspar. Lär dig utan misstag.

Om detta argument är sant, kommer perceptronen aldrig att kunna lära sig utan att göra ett enda misstag. Annars kommer perceptronen aldrig att göra ett misstag. I praktiken visar det sig att denna uppgift är väldigt enkel för en perceptron: för att lösa den behöver perceptronen 1500 A-element (istället för hela 65 536 som krävs för varje uppgift). I det här fallet är antalet iterationer cirka 1000. Med 1000 A-element konvergerar inte perceptronen i 10 000 iterationer. Om däremot antalet A-element ökas till 40 000, kan konvergens förväntas i 30-80 iterationer. Ett sådant argument uppstår eftersom detta problem förväxlas med Minsky-problemet "om predikatet "paritet" [27] . Viktstabilisering och konvergens

Missuppfattning: Rosenblatts perceptron har lika många A-element som det finns ingångar. Och konvergensen enligt Rosenblatt är stabiliseringen av vikterna.

I Rosenblatt läser vi:

Om antalet stimuli i rymden W är lika med n > N (det vill säga fler än antalet A-element i den elementära perceptronen), så finns det någon klassificering C(W) för vilken det inte finns någon lösning [28 ] .

Av detta följer att:

för Rosenblatt är antalet A-element lika med antalet stimuli (träningsexempel), och inte antalet ingångar;
konvergens enligt Rosenblatt är detta inte stabiliseringen av vikterna, utan närvaron av alla erforderliga klassificeringar, det vill säga i själva verket frånvaron av fel.

Exponentiell ökning av antalet dolda element

Missuppfattning: om viktkoefficienterna för elementen i det dolda lagret (A-element) är fixerade, är det nödvändigt att antalet element i det dolda lagret (eller deras komplexitet) ökar exponentiellt med en ökning av problemets dimension (antalet receptorer). Således är deras främsta fördel förlorad - förmågan att lösa problem med godtycklig komplexitet med hjälp av enkla element.

Rosenblatt visade att antalet A-element endast beror på antalet stimuli som ska kännas igen (se föregående stycke eller perceptronkonvergenssatsen ). Således, med en ökning av antalet receptorer, om antalet A-element är fixerat, beror inte perceptronens förmåga att lösa problem med godtycklig komplexitet direkt. Denna missuppfattning kommer från följande fras av Minsky:

När vi undersökte paritetspredikatet såg vi att koefficienterna kan växa med |R| (antal punkter i bilden) exponentiellt [29] .

Dessutom utforskade Minsky andra predikat, som "jämlikhet". Men alla dessa predikat representerar en ganska specifik uppgift för generalisering, och inte för erkännande eller förutsägelse. Så, till exempel, för att perceptronen ska uppfylla predikatet "paritet", måste den säga om antalet svarta punkter i en svartvit bild är jämnt eller inte; och för att uppfylla predikatet "jämlikhet", säg om bildens högra sida är lika med vänster sida. Det är tydligt att sådana uppgifter går utöver räckvidden för erkännande och förutsägelseuppgifter, och är uppgifter för generalisering eller helt enkelt för att beräkna vissa egenskaper. Detta visades övertygande av Minsky och är en begränsning inte bara för perceptroner, utan också för alla parallella algoritmer , som inte kan beräkna sådana predikat snabbare än sekventiella algoritmer. Därför begränsar sådana uppgifter kapaciteten för alla neurala nätverk och perceptroner i synnerhet, men detta har ingenting att göra med de fasta anslutningarna i det första lagret; eftersom det för det första handlade om värdet av anslutningskoefficienterna för det andra lagret, och för det andra är frågan bara i effektivitet och inte i princip. Det vill säga, perceptronen kan också tränas för denna uppgift, men minneskapaciteten och inlärningshastigheten som krävs för detta kommer att vara större än när man använder en enkel sekventiell algoritm. Införandet av träningsbara vikter i det första lagret kommer bara att förvärra situationen, eftersom det kommer att kräva mer träningstid, eftersom relationsvariablerna mellan S och A hindrar snarare än bidrar till inlärningsprocessen [30] . Dessutom, när man förbereder en perceptron för uppgiften att känna igen stimuli av en speciell typ, för att bibehålla effektiviteten, kommer speciella förutsättningar för stokastisk inlärning att krävas [31] , vilket visades av Rosenblatt i experiment med en perceptron med variabla S-A-bindningar .

Funktioner och begränsningar för modellen

Modellfunktioner

Rosenblatt själv betraktade perceptronen i första hand som nästa viktiga steg mot studiet och användningen av neurala nätverk, och inte som en färdig version av en " maskin som kan tänka " [nb 9] . Till och med i förordet till sin bok noterade han, som svar på kritik, att "perceptronforskningsprogrammet huvudsakligen inte är kopplat till uppfinningen av enheter med "artificiell intelligens", utan med studiet av fysiska strukturer och neurodynamiska principer" [32] .

Rosenblatt föreslog ett antal psykologiska tester för att fastställa förmågan hos neurala nätverk: experiment om diskriminering , generalisering , sekvensigenkänning , bildandet av abstrakta begrepp , bildandet och egenskaperna hos " självmedvetenhet ", kreativ fantasi och andra [33] . Vissa av dessa experiment är långt ifrån perceptronernas nuvarande kapacitet, så deras utveckling är mer filosofiskt i riktning mot konnektivism . Ändå, för perceptroner, har två viktiga fakta fastställts som finner tillämpning i praktiska problem: möjligheten att klassificera (objekt) och möjligheten att approximera (gränser för klasser och funktioner) [34] .

En viktig egenskap hos perceptroner är deras förmåga att lära sig dessutom enligt en ganska enkel och effektiv algoritm (se ovan ).

Modellbegränsningar

Rosenblatt identifierade själv två grundläggande begränsningar för trelagersperceptroner (bestående av ett S-lager, ett A-lager och R-lager): deras bristande förmåga att generalisera sina egenskaper till nya stimuli eller nya situationer, och deras oförmåga att analysera komplexa situationer i den yttre miljön genom att dela upp dem i enklare [17] .

1969 publicerade Marvin Minsky och Seymour Papert boken Perceptrons, där de matematiskt visade att perceptroner som Rosenblatts i grunden inte kunde utföra många av de funktioner de ville ha från perceptroner. Dessutom var teorin om parallell beräkning vid den tiden dåligt utvecklad, och perceptronen var helt förenlig med principerna för sådana beräkningar. I stort sett visade Minsky fördelen med sekventiell beräkning framför parallell i vissa klasser av problem associerade med en invariant representation. Hans kritik kan delas in i tre teman:

Perceptroner har begränsningar i uppgifter relaterade till den oföränderliga representationen av bilder, det vill säga oberoende av deras position på det sensoriska fältet och i förhållande till andra figurer. Sådana problem uppstår till exempel om vi behöver bygga en maskin för att läsa tryckta bokstäver eller siffror så att den här maskinen kan känna igen dem oavsett deras position på sidan (det vill säga så att maskinens beslut inte påverkas av översättning , rotation , stretching-komprimering av tecken) [6] ; eller om vi behöver bestämma hur många delar en figur består av [35] ; eller om två figurer är sida vid sida eller inte [36] . Minsky bevisade att denna typ av problem inte kan lösas helt med hjälp av parallell beräkning, inklusive perceptron.
Perceptroner har inte en funktionell fördel gentemot analytiska metoder (till exempel statistiska ) i uppgifter relaterade till prognos [37] . Men i vissa fall representerar de en enklare och mer produktiv metod för dataanalys .
Det har visat sig att vissa problem i princip kan lösas av en perceptron, men kan kräva orealistiskt lång tid [38] eller orealistiskt stort minne [39] .

Boken av Minsky och Papert påverkade avsevärt utvecklingen av vetenskapen om artificiell intelligens, eftersom den flyttade vetenskapligt intresse och subventioner från amerikanska statliga organisationer till en annan forskningsriktning - den symboliska inställningen till AI .

Tillämpningar av perceptroner

Här kommer endast grunderna för den praktiska tillämpningen av perceptronen på två olika uppgifter att visas. Förutsägelseproblemet (och dess motsvarande problem med mönsterigenkänning ) kräver hög noggrannhet, medan agentkontrollproblemet kräver en hög inlärningshastighet. Därför, med tanke på dessa uppgifter, kan man till fullo bekanta sig med perceptronens kapacitet, men detta är långt ifrån uttömmande alternativen för dess användning.

I praktiska problem kommer perceptronen att behöva kunna välja mellan fler än två alternativ, vilket innebär att den måste ha mer än ett R-element vid utgången. Som framgår av Rosenblatt, skiljer sig egenskaperna hos sådana system inte nämnvärt från egenskaperna hos en elementär perceptron [40] .

Förutsägelse och mönsterigenkänning

I dessa uppgifter krävs att perceptronen avgör om ett objekt tillhör en klass genom dess parametrar (till exempel genom utseende, form, siluett). Dessutom kommer noggrannheten i igenkänningen till stor del att bero på representationen av perceptronens utgående reaktioner. Tre typer av kodning är möjliga här: konfiguration , positionell och hybrid. Positionskodning, när varje klass har sitt eget R-element, ger mer exakta resultat än andra typer. Denna typ används till exempel i arbetet av E. Kussul et al. "Rosenblatt Perceptrons for Recognizing Handwritten Digits". Den är dock inte tillämplig i de fall där antalet klasser är betydande, till exempel flera hundra. I sådana fall kan hybrid konfiguration-positionell kodning användas, vilket gjordes i arbetet med S. Yakovlev "Ett system för att känna igen rörliga objekt baserat på artificiella neurala nätverk."

Agenthantering

Inom artificiell intelligens övervägs ofta lärande ( miljöanpassande ) agenter. Samtidigt, under förhållanden av osäkerhet , blir det viktigt att analysera inte bara aktuell information, utan också det allmänna sammanhanget för den situation i vilken agenten har hamnat, därför används feedbackperceptroner här [41] . Dessutom blir det i vissa uppgifter viktigt att öka inlärningshastigheten för perceptronen, till exempel med hjälp av refraktäritetsmodellering [42] .

Efter en period känd som " Vintern av artificiell intelligens ", återupplivades intresset för cybernetiska modeller på 1980 -talet , eftersom symboliska AI-förespråkare inte lyckades komma nära "Förståelse" och "Mening"-problemen, vilket orsakade maskinöversättning och teknisk mönsterigenkänning fortfarande har ödesdigra brister. Minsky själv uttryckte offentligt beklagande över att hans tal skadade begreppet perceptroner, även om boken bara visade bristerna hos en enda enhet och några av dess variationer. Men generellt sett har AI blivit synonymt med det symboliska förhållningssättet, vilket uttrycks i skapandet av allt mer komplexa program för datorer som simulerar den mänskliga hjärnans komplexa aktiviteter.

Se även

Anteckningar

↑ Alternativet "perceptron" är det ursprungliga, som används i översättningen av Rosenblatts bok (1965), även i referensboken: Explanatory Dictionary of Artificial Intelligence / Compilers A. N. Averkin, M. G. Gaaze-Rapoport , D. A. Pospelov . - M . : Radio och kommunikation, 1992. - 256 sid. Varianten "perceptron" är vanligare, den uppstod när man översatte boken Minsky och Papert (1971); se även: Encyclopedia of cybernetics. Volym 2. Mikh-Yach . - Kiev: Ch. ed. USE, 1974. - S. 156-158. Arkiverad kopia (inte tillgänglig länk) . Hämtad 1 februari 2009. Arkiverad från originalet 31 mars 2009. (obestämd)
↑ "Mark-1", i synnerhet, var ett system som efterliknar det mänskliga ögat och dess interaktion med hjärnan.
↑ "Trelager" enligt klassificeringen som antagits av Rosenblatt, och "tvålager" enligt den moderna notationen - med den egenheten att det första lagret inte går att träna.
↑ Det symboliska tillvägagångssättet inkluderar till exempel skapandet av expertsystem , organisation av kunskapsbaser , textanalys .
↑ Formellt är A-element, liksom R-element, adderare med en tröskel , det vill säga enstaka neuroner .
↑ Presentationen i detta avsnitt är något förenklad på grund av komplexiteten i predikatbaserad analys.
↑ Ett predikat är ekvivalent med en ingång endast i ett specialfall - bara när det beror på ett argument.
↑ M. M. Bongard anser att denna uppgift är den svåraste för att rita ett hyperplan i receptorernas utrymme.
↑ I de första stadierna av utvecklingen av vetenskapen om artificiell intelligens ansågs dess uppgift i abstrakt mening - skapandet av system som liknar mänskliga sinnen (se artificiell allmän intelligens ). Moderna uppgiftsformuleringar inom AI tenderar att vara mer exakta.

Källor

↑ Warren S. McCulloch och Walter Pitts . En logisk beräkning av idéerna i nervös aktivitet // Bulletin of Mathematical Biology . - New York : Springer New York , 1943. - V. 5 , nr 4 . - S. 115-133 .
↑ 12 Donald Olding Hebb . Organisationen av beteende: en neuropsykologisk teori . - Wiley , 1949. - 335 sid. Samtida upplaga: Donald Olding Hebb . Organisationen av beteende: en neuropsykologisk teori . - Lawrence Erlbaum Associates , 2002. - 335 sid. - ISBN 0805843000 , ISBN 978-0-8058-4300-2 .
↑ Perceptrons: An Associative Learning Network . Hämtad 2 maj 2008. Arkiverad från originalet 19 augusti 2011. (obestämd)
↑ Perceptronens utseende (otillgänglig länk)
↑ 1 2 System för mönsterigenkänning (otillgänglig länk) . Hämtad 4 oktober 2019. Arkiverad från originalet 18 december 2017. (obestämd)
↑ 1 2 Minsky M., Papert S., sid. femtio.
↑ Perceptronen: En probabilistisk modell för informationslagring och organisation i hjärnan (nedlänk) . Hämtad 2 maj 2008. Arkiverad från originalet 18 februari 2008. (obestämd)
↑ 1 2 3 4 Rosenblatt F., sid. 102.
↑ Fomin, S. V., Berkinblit, M. B. Matematiska problem i biologi Arkiverad 21 december 2009 på Wayback Machine
↑ Rosenblatt, F., sid. 158-162.
↑ Rosenblatt, F., sid. 162-163.
↑ Bryukhomitsky Yu. A. Neurala nätverksmodeller för informationssäkerhetssystem, 2005.
↑ 1 2 3 Rosenblatt F., sid. 81.
↑ 1 2 3 Rosenblatt, F., sid. 200.
↑ 1 2 3 4 Rosenblatt F., sid. 82.
↑ Rosenblatt F., sid. 83.
↑ 1 2 Rosenblatt F., sid. 93.
↑ Rosenblatt, F., sid. 230.
↑ Minsky, Papert, sid. 11-18.
↑ Minsky, Papert, sid. arton.
↑ Rosenblatt, F., sid. 85-88.
↑ Khaikin S., 2006, sid. 96.
↑ Rosenblatt, F., sid. 86.
↑ Khaikin S., 2006, sid. 225-243, 304-316.
↑ Wasserman, F. Neurocomputer Engineering: Theory and Practice, 1992.
↑ Bongard, M. M., sid. 29.
↑ Minsky M., Papert S., sid. 59.
↑ Rosenblatt, F., sid. 101.
↑ Minsky, Papert, sid. 155, 189 (inte ordagrant, förenklat för uttrycksfullhetens skull).
↑ Rosenblatt, s. 239
↑ Rosenblatt, s. 242
↑ Rosenblatt, F., sid. arton.
↑ Rosenblatt, F., sid. 70-77.
↑ se Ezhov A. A., Shumsky S. A. "Neurocomputing ...", 2006. Föreläsning 3: Övervakad inlärning: Mönsterigenkänning Arkivkopia daterad 1 november 2011 på Wayback Machine
↑ Minsky M., Papert S., sid. 76-98.
↑ Minsky M., Papert S., sid. 113-116.
↑ Minsky M., Papert S., sid. 192-214.
↑ Minsky, Papert, sid. 163-187
↑ Minsky, Papert, sid. 153-162
↑ Rosenblatt, F., sid. 219-224.
↑ Yakovlev S. S. Genom att använda Jordans återkomstprincip i Rosenblatt-perceptronen, Journal "AUTOMATICS AND COMPUTING TECHNIQUE", Riga, 2009 Arkiverad 1 juli 2017 på Wayback Machine . Virtual Laboratory Wiki.
↑ Yakovlev S.S. , Undersökning av Refractoriness-principen i återkommande neurala nätverk, Scientific procedures of Riga Technical University, Issue 5, Vol.36, RTU, Riga, 2008, P. 41-48. Utforska principen om refraktäritet i återkommande neurala nätverk (översättning) Arkiverad 7 mars 2016 på Wayback Machine .

Litteratur

Bongard, M. M. Problemet med erkännande . — M .: Nauka, 1967. — 320 sid. Arkiverad6 juni 2015 påWayback Machine
Bryukhomitsky, Yu. A. Neurala nätverksmodeller för informationssäkerhetssystem: en handledning . - Taganrog: Publishing House of TRTU, 2005. - 160 sid. (inte tillgänglig länk)
McCulloch, W. S. , Pitts, V. Logisk beräkning av idéer relaterade till nervös aktivitet = En logisk beräkning av idéerna immanenta i nervös aktivitet // Automata: Sat .. - M. , 1956. - P. 363 - 384 . Arkiverad från originalet den 6 juni 2015.
Minsky, M. , Papert, S. Perceptrons = Perceptrons. — M .: Mir, 1971. — 261 sid. Arkiverad6 juni 2015 påWayback Machine
Rosenblatt, F. Principer för neurodynamisk: perceptroner och teorin om hjärnans mekanismer. - M . : Mir, 1965. - 480 sid. Arkiverad21 maj 2015 påWayback Machine
Wasserman, F. Neurocomputer Engineering: Teori och praktik = Neural Computing. teori och praktik. — M .: Mir, 1992. — 240 sid. — ISBN 5-03-002115-9 . Arkiverad 30 juni 2009 på Wayback Machine
Khaikin, S. Neurala nätverk: En komplett kurs = Neurala nätverk: En omfattande grund. - 2:a uppl. - M . : "Williams" , 2006. - 1104 sid. — ISBN 0-13-273350-1 .
Yakovlev S.S. Ett system för att känna igen rörliga objekt baserat på artificiella neurala nätverk . ITK NASB. - Minsk, 2004. - S. 230-234 .
Kussul E., Baidyk T., Kasatkina L., Lukovich V. Rosenblatt Perceptrons for Handwritten Digit Recognition // IEEE. - 2001. - S. 1516-1520 . — ISBN 0-7803-7044-9 . Arkiverad från originalet den 19 augusti 2013. (Engelsk)
Stormo GD, Schneider TD, Gold L., Ehrenfeucht A. Användning av 'Perceptron'-algoritmen för att särskilja transnationella initieringsställen i E. coli // Nucleic Acids Research. - 1982. - S. P. 2997-3011 . (Engelsk)

Länkar

Perceptron . Virtual Laboratory Wiki. Tillträdesdatum: 17 januari 2009. Arkiverad från originalet den 19 augusti 2011. (obestämd)
Perceptronens tillkomst (otillgänglig länk) . Hämtad 17 januari 2009. Arkiverad från originalet 6 april 2011. (obestämd)
Ezhov A. A., Shumsky S. A. Neurocomputing och dess tillämpningar inom ekonomi och affärer . INTUIT (2006). Hämtad 17 januari 2009. Arkiverad från originalet 1 november 2011. (obestämd)
Redko V. G. Artificiella neurala nätverk (1999). Datum för åtkomst: 17 januari 2009. Arkiverad från originalet den 23 augusti 2011. (obestämd)
Yakovlev S.S. Linjäritet och invarians i artificiella neurala nätverk (pdf) (otillgänglig länk) (2006). Tillträdesdatum: 17 januari 2009. Arkiverad från originalet den 19 augusti 2011. (obestämd)
Estebon, M.D.; Tech, V. Perceptrons: An Associative Learning Network ( 1997). Tillträdesdatum: 17 januari 2009. Arkiverad från originalet den 19 augusti 2011.
Berkinblit M. B. Neurala nätverk. Kapitel "Perceptroner och andra klassificeringssystem för lärande" (otillgänglig länk) (1993). Tillträdesdatum: 17 januari 2009. Arkiverad från originalet den 19 augusti 2011. (obestämd)

Typer av artificiella neurala nätverk

Framkopplingsnätverk ( Network of Radial Basis Functions )
Enkelskiktsperceptron
Multilayer Perceptron ( Rosenblatt • Rumelhart )
Hopfield nätverk
Markov kedja
Boltzmann maskin
Begränsad Boltzmann-maskin
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variationell autoencoder )
Djup nät av förtroende
Konvolutionellt neuralt nätverk
Deep Convolutional Neural Network
Distribution Neural Network
Deep Convolutional Inverse Graphic Network
Generativt motståndsnätverk
Återkommande neurala nätverk
Rekursiva neurala nätverk
långtidsminne
Kontrollerat återkommande block
Neural Turing Machines
Dubbelriktat nätverk ( Dubbelriktat återkommande neuralt nätverk • Dubbelriktat nätverk med långtidsminne • Dubbelriktat kontrollerade återkommande neuroner )
Deep Residual Network
Neural ekotätverk
Extrem inlärningsmetod
Metod för instabila tillstånd
Stöd vektor maskin
Kohonen nätverk
Självorganiserande karta över Kohonen
Kapselneurala nätverk
Associativt minne på neurala nätverk

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG