Rumelhart flerskiktsperceptron

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 16 maj 2021; kontroller kräver 4 redigeringar .

En flerskiktsperceptron är ett specialfall av Rosenblatt-perceptronen , där en algoritm för backpropagation tränar alla lager. Namnet, av historiska skäl, återspeglar inte egenskaperna hos denna typ av perceptron, det vill säga det är inte relaterat till det faktum att det har flera lager (eftersom Rosenblatt-perceptronen också hade flera lager). En funktion är närvaron av mer än ett träningsbart lager (vanligtvis två eller tre). Behovet av ett stort antal träningsskikt elimineras, eftersom det teoretiskt räcker med ett enda dolt skikt för att omkoda ingångsrepresentationen på ett sådant sätt att linjär separerbarhet erhålls för utgångsrepresentationen. Det finns ett antagande att genom att använda fler lager kan du minska antalet element i dem, det vill säga att det totala antalet element i lagren blir mindre än om du använder ett dolt lager. Detta antagande har framgångsrikt använts i teknik för djupinlärning och har en logik [1] .

Historien om bildandet av begreppet en flerskiktsperceptron

Alla typer av perceptroner som föreslagits av Rosenblatt sedan 1958 är flerskiktiga enligt den moderna klassificeringen. Men intresset för perceptroner minskade på 1970-talet och 1986 gjorde Rumelhart om flerskiktsperceptronen. Samtidigt spred litteraturen [2] på grund av Rummelharts terminologiska felaktigheter också tanken att den ursprungliga Rosenblatt-perceptronen var primitiv och enkelskiktad, och endast Rummelhart underbyggde behovet av att införa dolda lager.

I sin forskning använde Rosenblatt huvudsakligen en elementär perceptron av tre lager, med vikterna för det första lagret (mellan S- och A-element) slumpmässigt utvalda och sedan fixerade. Kombinationen av slumpmässighet och ett stort antal neuroner i A-skiktet gav en hög sannolikhet att hamna i ett sådant hyperrymd, där det fanns linjär separerbarhet och konvergensen av inlärningsprocessen garanterades. Men en sådan teknik studerades och förstods inte tillräckligt då, och vissa forskare uppfattade den felaktigt som att den bara hade ett "fungerande" lager, och det fasta första lagret gavs inte vederbörlig uppmärksamhet.

År 1969 granskade Minsky och Papert den elementära perceptronen i sin bok kritiskt och identifierade ett antal begränsningar som orsakade ett minskat intresse för perceptroner bland forskare. För att återvända till ämnet många år senare, satte Rummelhart ut för att skapa en mer effektiv och praktisk perceptron, men för detta var det nödvändigt att åtminstone göra ett försök att demonstrera frånvaron av de begränsningar som Minsky beskrev.

År 1986 publicerade Rumelhart en samling artiklar (kollektiv monografi) [3] , där han återvänder till diskussionen om perceptroner och underbygger behovet av en felbackpropagation-algoritm, vars essens är behovet av att träna inte bara den andra, utan även det första lagret. Samtidigt citerar han en teckning från Minskys och Piperts bok och signerar den: "Enkellagersperceptron analyserad av Minsky och Pipert." Oexaktheten var att Minsky och Pipert inte analyserade en enda lager perceptron; Rosenblatt perceptronen som visas i figuren presenterades av Rumelhart som ett enda lager, eftersom det första lagret med fasta vikter inte togs i beaktande, vilket lämnade det faktum att det första lagret spelade en betydande roll för att omvandla insignalen till en flerdimensionell linjär separerbart utrymme utan uppmärksamhet.

Som ett resultat formulerar Rumelhart en felaktig slutsats:

I sin berömda bok Perceptrons, Minsky and Papert (1969) dokumenterar perceptronens begränsningar. Det enklaste exemplet på en funktion som inte kan utvärderas av en perceptron är XOR.

Originaltext (engelska)[ visaDölj] I sin berömda bok Perceptrons dokumenterar Minsky och Papert (1969) perceptronens begränsningar. Det enklaste exemplet på en funktion som inte kan beräknas av perceptronen är exklusiv-eller (XOR).

Hänvisningen till Minsky här är inte tillräckligt exakt - Minsky berörde inte XOR-problemet någonstans genom hela sin bok. Dessutom löser Rosenblatts perceptron XOR-problemet. Men utseendet på termen "enskiktsperceptron" blev grunden för ett antal missförstånd, och ingick i ett antal efterföljande föreläsningar och läroböcker. Samtidigt gjorde Minsky ett ogrundat uttalande att " perceptronen fungerar felfritt endast under förutsättning att uppsättningen av initiala data är linjärt separerbar ", vilket kan misstolkas i framtiden.

Men redan 1964 [4] visade författaren till kompakthetshypotesen Braverman själv hur Rosenblatt-perceptronen löser ett godtyckligt problem utan att kräva tillfredsställelse av de initiala uppgifterna för kompakthetshypotesen, och översätta till modern terminologi, endast tillräckligheten och representativiteten hos utbildningsexemplet krävdes:

När vi tolkade perceptronens funktion ur den potentiella algoritmens synvinkel ställde vi inga specifika krav på planen implementerade av A-element. Vi var likgiltiga för planens koefficienter och riktningen på deras "positiva" sidor. Det krävdes bara att vi korsade "från plus till minus" ett tillräckligt stort antal plan när vi rörde oss längs någon rak linje i receptorutrymmet. Det måste med andra ord ha funnits en hel del olika orienterade plan i receptorernas rymd.

Dessutom, för tillfället har detta uttalande av Minsky motbevisats av S. S. Yakovlev, som, genom att analysera Rosenblatts verk, angav vilka arkitektoniska egenskaper en perceptron (eller något annat neuralt nätverk ) borde ha för att bilda ett funktionsutrymme som tillfredsställer kompakthetshypotes . Eller vad som är detsamma, han beskrev villkoren under vilka en hög sannolikhet (mer än 99,99 %) för att komma in i ett sådant hyperrymd tillhandahålls, där det finns linjär separerbarhet och konvergensen av inlärningsprocessen garanteras. [5]

Vidare skriver Rumelhart:

Således ser vi att XOR inte är lösbar i två dimensioner, men om vi lägger till en lämplig tredje dimension, det vill säga en lämplig ny funktion, är problemet lösbart. Dessutom, om du använder en flerskiktsperceptron, är det möjligt att ta det ursprungliga 2D-problemet och konvertera det till motsvarande 3D-problem, vilket gör det lösbart. Minsky och Papert visste faktiskt att det alltid var möjligt att omvandla alla oavgjorda problem till ett lösbart i en flerskiktsperceptron. I det mer allmänna fallet med flerskiktsnätverk, kategoriserar vi element i tre klasser: ingångselement som tar emot ingångssampel direkt; utdataelement för vilka det finns associativ inlärning eller vald input; och dolda element som inte tar emot input direkt och som inte har någon direkt feedback. Det är ett lager av element från vilka nya egenskaper och nya interna representationer kan härledas. Problemet är att veta vilka nya egenskaper som behövs för att lösa problemet. Kort sagt, vi behöver kunna träna mellanlager. Frågan är hur? Den ursprungliga perceptronträningsproceduren gäller för högst ett lager. Minsky och Papert ansåg att man inte kunde hitta någon sådan generell procedur.

Originaltext (engelska)[ visaDölj] Således ser vi att XOR inte är lösbar i två dimensioner, men om vi lägger till den lämpliga tredje dimensionen, det vill säga den lämpliga nya funktionen, är problemet lösbart. Dessutom, som anges i figur 4, om du tillåter en flerskiktad perceptron, är det möjligt att ta det ursprungliga tvådimensionella problemet och konvertera det till det lämpliga tredimensionella problemet så att det kan lösas. I själva verket, som Minsky och Papert visste, är det alltid möjligt att omvandla alla olösliga problem till ett lösbart i en flerskiktsperceptron. I det mer allmänna fallet med flerskiktsnätverk kategoriserar vi enheter i tre klasser: ingångsenheter, som tar emot inmatningsmönstren direkt; utgångsenheter, som har tillhörande undervisnings- eller målingångar; och dolda enheter, som varken tar emot insignaler direkt eller ges direkt feedback. Detta är beståndet av enheter från vilka nya funktioner och nya interna representationer kan skapas. Problemet är att veta vilka nya funktioner som krävs för att lösa problemet. Kort sagt, vi måste kunna lära oss mellanskikt. Frågan är hur? Den ursprungliga perceptroninlärningsproceduren gäller inte för mer än ett lager. Minsky och Papert ansåg att man inte kunde hitta någon sådan generell procedur.

Här ser Rumelhart lösningen i att " ta det ursprungliga 2D-problemet och omvandla det till ett motsvarande 3D-problem ", och motiverar den grundläggande betydelsen av skiktning, och tror felaktigt att Rosenblatts perceptron inte har denna kvalitet. Den enda skillnaden är att Rosenblatt kunde undvika att träna det första lagret genom att använda dess slumpmässiga projektion på ett högdimensionellt utrymme. Dessutom övervägde Rosenblatt en komplett analog till Rumelharts flerskiktsperceptron, kallad en perceptron med variabla SA-kopplingar , där det bland annat bevisades att en inlärningsprocedur som liknar backpropagation av ett fel inte alltid kan garantera att en lösning uppnås (se till konvergens).

Inte bara Rumelhart utvecklade metoden för bakåtpropagation , utan det fanns redan teoretiska verk från andra forskare som ägnade sig åt samma fråga:

Werbos PJ [6]
Galushkin A. I. [7] .
S. I. Bartsev och V. A. Okhonin, Krasnoyarsk Group, publicerar en mer allmän version av metoden för bakåtförökning — principen om dualitet, som även är tillämplig på oändligt dimensionella system, system med fördröjningar, etc. [8] [9]

men det var Rummelharts verk som återupplivade det praktiska intresset för perceptroner.

I detta avseende sa Wasserman [10] :

Även om denna dubblering är vanlig inom alla vetenskapliga områden, är situationen i artificiella neurala nätverk mycket allvarligare på grund av själva ämnets gränsöverskridande karaktär. Forskning om neurala nätverk publiceras i så många olika böcker och tidskrifter att även den mest kvalificerade forskaren behöver avsevärda ansträngningar för att vara medveten om allt viktigt arbete inom detta område.

På grund av dessa felaktigheter har en felaktig uppfattning spridits i litteraturen om Rosenblatt-perceptronens primitivitet, och att endast Rummelhart, efter att ha skapat sin flerskiktsperceptron, upptäckte den grundläggande möjligheten att linjär separation och lösa XOR-problemet, även om Rummelharts upptäckt huvudsakligen bestod av i den praktiska modifieringen av flerskiktskretsen och utvecklingen av en fundamentalt ny metodinlärning.

Skillnader mellan en flerskiktsperceptron och en Rosenblatt-perceptron

1988 återutgav Minsky boken Perceptrons , som innehöll nya kapitel. I synnerhet analyserar de skillnaderna mellan att träna en perceptron med felkorrigeringsmetoden och att träna en Rumelhart flerskiktsperceptron genom metoden med felbackpropagation . Minsky visade att det inte finns några kvalitativa skillnader, båda metoderna löser jämförbara problem och med samma effektivitet och begränsningar. Skillnaden ligger bara i hur lösningen nås.

Det finns följande skillnader mellan Rumelharts flerskiktsperceptron och Rosenblatts perceptron:

Användning av en icke-linjär aktiveringsfunktion, vanligtvis sigmoid.
Antalet träningsbara lager är större än ett. Oftast används inte fler än tre i applikationer.
Signalerna som kommer in och tar emot från utgången är inte binära, utan kan kodas med decimaltal, som måste normaliseras så att värdena ligger i intervallet från 0 till 1 (normalisering är nödvändig åtminstone för utdata , i enlighet med aktiveringsfunktionen - sigmoid) .
En godtycklig arkitektur av anslutningar är tillåten (inklusive helt anslutna nätverk).
Nätverksfelet beräknas inte som antalet felaktiga bilder efter träningsiterationen, utan som något statistiskt mått på avvikelsen mellan det önskade och det mottagna värdet.
Träningen genomförs inte förrän det inte finns några fel efter träningen, utan tills viktkoefficienterna stabiliseras under träningen eller avbryts tidigare för att undvika omträning.

En flerskiktsperceptron kommer att ha funktionella fördelar jämfört med Rosenblatt-perceptronen endast om, som svar på stimuli, någon form av reaktion inte bara kommer att utföras (eftersom vilken typ av reaktion som helst redan kan erhållas i perceptronen ), utan kommer att uttryckas i en ökning i effektiviteten av att generera sådana reaktioner. . Till exempel kommer förmågan att generalisera , det vill säga till de korrekta reaktionerna på stimuli som perceptronen inte har lärt sig, förbättras. Men för tillfället finns det inga sådana generaliserande satser, det finns bara en massa studier av olika standardiserade test som jämför olika arkitekturer.

Se även

Anteckningar

↑ Yoshua Bengio, Aaron Courville, Pascal Vincent Representation Learning: A Review and New Perspectives Arkiverad 23 december 2015 på Wayback Machine , 2014
↑ till exempel i Wasserman, F. Neurocomputer Engineering: Theory and Practice = Neural Computing. teori och praktik. — M .: Mir, 1992. — 240 sid. — ISBN 5-03-002115-9 . Arkiverad kopia (inte tillgänglig länk) . Hämtad 1 juni 2011. Arkiverad från originalet 30 juni 2009. (obestämd)
↑ Parallell distribuerad bearbetning: Explorations in the Microstructures of Cognition / Ed. av Rumelhart DE och McClelland JL—Cambridge, MA: MIT Press, 1986.
↑ Learning the object classification machine, Arkadiev A. G., Braverman E. M., Nauka Publishing House, Huvudupplagan av fysisk och matematisk litteratur, M., 1971, 192 sidor.
↑ S. Jakovlev. Perceptronarkitektur som säkerställer mönsterbeskrivning compactnes // Scientific procedures of Riga Technical University, RTU. — Riga, 2009.
↑ Werbos PJ 1974. Bortom regression: Nya verktyg för förutsägelse och analys inom beteendevetenskap. Doktorsavhandling, Harvard University
↑ Galushkin A.I. Syntes av system för bildigenkänning i flera lager. - M .: "Energi", 1974.
↑ Bartsev S.I., Okhonin V.A. Adaptiva nätverk för informationsbehandling. Krasnoyarsk: Institute of Physics SO AN USSR, 1986. Preprint N 59B. — 20 s.
↑ Gorban A.N., Training neural networks Arkiverad 9 augusti 2010 på Wayback Machine . M.: red. USSR-USA Joint Venture "Paragraph", 1990. 160 sid.
↑ Wasserman, F. Neurocomputer Engineering: Teori och praktik = Neural Computing. teori och praktik. — M.: Mir, 1992. — 240 sid.

Litteratur

F. Wasserman. Neurodatorteknik: Teori och praktik. - M . : "Mir", 1992.
Simon Haykin. Neurala nätverk: en komplett kurs = neurala nätverk: en omfattande grund. - 2:a uppl. - M .: "Williams" , 2006. - S. 1104. - ISBN 0-13-273350-1 .

Länkar

Kevin Swinglers bok Applying Neural Networks. En praktisk guide” (översatt av Yu. P. Masloboev) (otillgänglig länk)
Mirkes E.M. , Neuroinformatik. Lärobok med program för att utföra laborationer. 2003. ISBN 5-7636-0477-6 . Innehåller föreläsningar och mjukvara, inklusive - för modellering av flerskiktsperceptroner
Viktor Tsaregorodtsevs webbplats som innehåller vetenskapliga artiklar om användningen av en flerskiktsperceptron
Flood: Ett C++-bibliotek för neurala nätverk med öppen källkod .
Weka: Programvara för datautvinning med öppen källkod med flerlagers perceptronimplementering .

Typer av artificiella neurala nätverk

Framkopplingsnätverk ( Network of Radial Basis Functions )
Enkelskiktsperceptron
Multilayer Perceptron ( Rosenblatt • Rumelhart )
Hopfield nätverk
Markov kedja
Boltzmann maskin
Begränsad Boltzmann-maskin
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variationell autoencoder )
Djup nät av förtroende
Konvolutionellt neuralt nätverk
Deep Convolutional Neural Network
Distribution Neural Network
Deep Convolutional Inverse Graphic Network
Generativt motståndsnätverk
Återkommande neurala nätverk
Rekursiva neurala nätverk
långtidsminne
Kontrollerat återkommande block
Neural Turing Machines
Dubbelriktat nätverk ( Dubbelriktat återkommande neuralt nätverk • Dubbelriktat nätverk med långtidsminne • Dubbelriktat kontrollerade återkommande neuroner )
Deep Residual Network
Neural ekotätverk
Extrem inlärningsmetod
Metod för instabila tillstånd
Stöd vektor maskin
Kohonen nätverk
Självorganiserande karta över Kohonen
Kapselneurala nätverk
Associativt minne på neurala nätverk

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG