Kohonens neurala nätverk

Neurala nätverk av Kohonen är en klass av neurala nätverk , vars huvudelement är Kohonen- skiktet . Kohonen-skiktet består av adaptiva linjära adderare ("linjära formella neuroner "). Som regel bearbetas utsignalerna från Kohonen-lagret enligt regeln " Vinnaren tar allt ": den största signalen förvandlas till en, resten blir noll.

Enligt metoderna för att ställa in adderarnas ingångsvikter och de uppgifter som ska lösas, finns det många varianter av Kohonen-nätverk [1] . Den mest kända av dem:

nätverk av vektorkvantisering av signaler [2] , nära besläktade med den enklaste grundläggande klusteranalysalgoritmen (metoden för dynamiska kärnor eller K-medel );
självorganiserande kartor över Kohonen ( engelska self-organizing maps , SOM ) [3] ;
övervakade vektorkvantiseringsnätverk [ 4 ] .

Kohonen lager

Grundläggande version

Kohonen-skiktet består av ett antal parallella linjära element. Alla har samma antal ingångar och tar emot samma vektor av insignaler vid sina ingångar . Vid utgången av det linjära elementet får vi signalen $n$ $m$ $x=(x_{1},...x_{m})$ $j$

y_{j}=w_{{j0}}+\summa _{{i=1}}^{m}w_{{ji}}x_{i},

var:

$w_{{ji}}$ är viktkoefficienten för den -: e ingången av den -te neuronen; $i$ $j$
$i$ - inträdesnummer;
$j$ — neuronnummer;
$w_{{j0}}$ — tröskelkoefficient.

Efter att ha passerat genom lagret av linjära element skickas signalerna för bearbetning enligt "vinnaren tar allt"-regeln: bland utsignalerna görs en sökning efter maximalt ; hans nummer . Slutligen, vid utgången, är signalen med numret lika med en, resten - till noll. Om maximivärdet uppnås samtidigt för flera , då: $y_{j}$ $j_{{\max }}={{\rm {arg}}}\max _{{j}}\{y_{j}\}$ $j_{{\max }}$ $j_{{\max }}$

eller ta alla motsvarande signaler lika med en;
eller bara den första signalen i listan tas lika med en (efter överenskommelse).

"Kohonens neuroner kan ses som en uppsättning glödlampor, så att för vilken ingångsvektor som helst lyser en av dem" [5] .

Geometrisk tolkning

Kohonen-lager konstruerade enligt följande används i stor utsträckning: varje ( -th) neuron är associerad med en punkt i det -dimensionella rymden (signalrymden). För en indatavektor beräknas dess euklidiska avstånd till punkter och "den närmaste får allt" - neuronen för vilken detta avstånd är minimalt ger ett, resten är nollor. Det bör noteras att för att jämföra avstånd är det tillräckligt att beräkna den linjära funktionen för signalen: $j$ $W_{j}=(w_{{j1}},...w_{{jm}})$ $m$ $x=(x_{1},...x_{m})$ $\rho _{j}(x)$ $W_j$

\rho _{j}(x)^{2}=\|x-W_{j}\|^{2}=\|W_{j}\|^{2}-2\summa _{{i= 1}}^{m}w_{{ji}}x_{i}+\|x\|^{2}

(här är vektorns euklidiska längd: ). Den sista termen är densamma för alla neuroner, så det behövs inte för att hitta den närmaste punkten. Problemet reduceras till att hitta antalet av de största av värdena för linjära funktioner: $\|y\|$ $\|y\|^{2}=\summa _{i}y_{i}^{2}$ $\|x\|^{2}$

j_{{\max }}={{\rm {arg}}}\max _{{j}}\left\{\summa _{{i=1}}^{m}w_{{ji}}x_ {i}-{\frac {1}{2}}\|W_{j}\|^{2}\right\}.

Således sammanfaller punktens koordinater med vikterna av den linjära neuronen i Kohonen-skiktet (med värdet av tröskelkoefficienten ). $W_{j}=(w_{{j1}},...w_{{jm}})$ $w_{{j0}}=-\|W_{j}\|^{2}/2$

Om punkter ges , då delas det dimensionella utrymmet in i motsvarande Voronoi-Dirichlet polyhedra: polyedern består av punkter som är närmare än andra ( ) [6] . $W_{j}=(w_{{j1}},...w_{{jm}})$ $m$ $V_{j}$ $V_{j}$ $W_j$ $W_{k}$ $k\neq j$

Vektorkvantiseringsnätverk

Problemet med vektorkvantisering med kodvektorer för en given uppsättning indatavektorer framställs som problemet med att minimera distorsion under kodning, det vill säga när varje vektor ersätts från motsvarande kodvektor. I den grundläggande versionen av Kohonen-nätverk används minsta kvadratmetoden och distorsionen beräknas med formeln $k$ $W_j$ $S$ $S$ $D$

D=\summa _{{j=1}}^{k}\summa _{{x\in K_{j}}}\|x-W_{j}\|^{2},

där består av de punkter som är närmare än andra ( ). Med andra ord består den av de punkter som kodas av kodvektorn . $K_{j}$ $x\i S$ $W_j$ $W_{l}$ $l\neq j$ $K_{j}$ $x\i S$ $W_j$

Om populationen ges och lagras i minnet är standardvalet för träning av motsvarande Kohonen-nätverk K-means- metoden . Detta är uppdelningsmetoden: $S$

med ett givet val av kodvektorer (de är nätverkets viktvektorer), genom att minimera hittar vi mängder - de består av de punkter som är närmare än andra ; $W_j$ $D$ $K_{j}$ $x\i S$ $W_j$ $W_{l}$
med en given uppdelning i uppsättningar, genom minimering hittar vi de optimala positionerna för kodvektorerna - för minsta kvadraters uppskattning är dessa helt enkelt de aritmetiska medelvärdena: $S$ $K_{j}$ $D$ $W_j$

W_{j}={\frac {1}{|K_{j}|}}\summa _{{x\i K_{j}}}x,

var är antalet element i . $|K_{j}|$ $K_{j}$

Därefter upprepar vi. Denna uppdelningsmetod konvergerar i ett ändligt antal steg och ger ett lokalt minimum av distorsion.

Om till exempel uppsättningen inte är förutbestämd, eller av någon anledning inte lagras i minnet, används onlinemetoden flitigt. Insignalsvektorerna bearbetas en efter en, för var och en av dem hittas den närmaste kodvektorn ("vinnaren", som "tar allt") . Därefter beräknas denna kodvektor om enligt formeln $S$ $x$ $W_{{j(x)}}$

W_{{j(x)}}^{{{\rm {ny}}}}=W_{{j(x)}}^{{{\rm {gamla}}}}(1-\theta )+ x\theta ,

var är inlärningssteget. Resten av kodvektorerna ändras inte i detta steg. $\theta \in(0,1)$

För att säkerställa stabilitet används en onlinemetod med en avtagande inlärningshastighet: om är antalet inlärningssteg, då . Funktionen är vald på ett sådant sätt att monotont vid och så att serien divergerar, till exempel, . $T$ $\theta =\theta (T)$ $\theta (T)>0$ $\theta (T)\till 0$ $T\till \infty$ $\sum _{{T=1}}^{{\infty }}\theta (T)$ $\theta (T)=\theta _{0}/T$

Vektorkvantisering är en mycket mer allmän operation än klustring , eftersom kluster måste separeras från varandra, medan uppsättningar för olika kodvektorer inte nödvändigtvis är separata kluster. Å andra sidan, om det finns separerbara kluster, kan vektorkvantisering hitta dem och koda dem annorlunda. $K_{j}$ $W_j$

Kohonens självorganiserande kartor

Idé och inlärningsalgoritm

Problemet med vektorkvantisering består i huvudsak i den bästa approximationen av hela uppsättningen datavektorer med kodvektorer . Självorganiserande Kohonen-kartor approximerar också data, dock med en extra struktur i uppsättningen kodvektorer ( eng. kodbok ). Det antas att en viss symmetrisk tabell av "närhetsmått" (eller "närhetsmått") av noder är a priori specificerad: för varje par ( ) bestäms ett nummer ( ) medan de diagonala elementen i närhetstabellen är lika med en ( ). $k$ $W_j$ $j,l$ $j,l=1,...k$ $\eta _{{jl}}$ $0\leq \eta _{{jl}}\leq 1$ $\eta _{{jj}}=1$

Insignalsvektorerna bearbetas en efter en, för var och en av dem hittas den närmaste kodvektorn ("vinnaren", som "tar allt") . Därefter räknas alla kodvektorer för vilka omräknas med formeln $x$ $W_{{j(x)}}$ $W_{l}$ $\eta _{{j(x)l}}\neq 0$

W_{l}^{{{\rm {ny}}}}=W_{l}^{{{\rm {gammal}}}}(1-\eta _{{j(x)l}}\theta )+x\eta _{{j(x)l}}\theta ,

var är inlärningssteget. Grannarna till den vinnande kodvektorn (enligt den a priori givna närhetstabellen) skiftas i samma riktning som denna vektor, i proportion till måttet på närhet. $\theta \in(0,1)$

Oftast representeras en tabell med kodvektorer som ett fragment av ett kvadratiskt gitter på ett plan, och närhetsmåttet bestäms baserat på det euklidiska avståndet på planet.

Kohonens självorganiserande kartor tjänar främst för visualisering och initial ("intelligens") dataanalys [7] . Varje datapunkt mappas till motsvarande kodvektor från gittret. Så erhålls en representation av data på ett plan (" datakarta "). Många lager kan visas på denna karta: mängden data som faller in i noderna (d.v.s. "datatäthet"), olika egenskaper hos datan och så vidare. När du visar dessa lager är apparaten för geografiska informationssystem (GIS) användbar. I GIS fungerar den geografiska kartan som ett substrat för att visa informationslager . En datakarta är ett substrat för en i sig godtycklig datamängd. Datakartan fungerar som ett substitut för den geografiska kartan där en geografisk karta helt enkelt inte existerar. Den grundläggande skillnaden är följande: på en geografisk karta har närliggande objekt liknande geografiska koordinater ; på en datakarta har liknande objekt liknande egenskaper. Med hjälp av en datakarta kan du visualisera data samtidigt som du applicerar åtföljande information på substratet (signaturer, anteckningar, attribut, informationsfärger) [7] . Kartan fungerar också som en informationsdatamodell . Den kan användas för att fylla i luckor i data. Denna förmåga används till exempel för att lösa prognosproblem .

Självorganiserande kartor och huvudsakliga grenrör

Idén med självorganiserande kartor är mycket attraktiv och har gett upphov till många generaliseringar, men strängt taget vet vi inte vad vi bygger: en karta är resultatet av en algoritm och har inte en separat (”objekt”) definition. Det finns dock en liknande teoretisk idé - principiella mångfalder [8 ] . Dessa grenrör generaliserar linjära huvudkomponenter . De introducerades som linjer eller ytor som passerar genom "mitten" av datadistributionen, med hjälp av självkonsistensvillkoret : varje punkt på huvudgrenröret är den villkorliga förväntan av de vektorer som projiceras på (förutsatt , var är grannskapsprojektionen operatör på ), $x$ $M$ $z$ $x$ $x=P(z)$ $P$ $M$ $M$

x={\mathbf {E}}(z|P(z)=x).

Självorganiserande kartor kan betraktas som approximationer av huvudsakliga grenrör och är populära som sådana [9] .

Elastiska kartor

En metod för att approximera flerdimensionell data baserat på att minimera "energin av elastisk deformation" av en karta nedsänkt i datarymden föreslogs av A. N. Gorban 1996 och utvecklades därefter av honom tillsammans med A. Yu. Zinoviev, A. A. Rossiev och A. A. Pitenko [7] . Metoden bygger på analogin mellan huvudgrenröret och ett elastiskt membran och en elastisk platta. I denna mening är det en utveckling av den klassiska idén om en spline (även om elastiska kartor inte är flerdimensionella splines).

Låt en uppsättning indatavektorer ges . Precis som vektorkvantiseringsnätverk och självorganiserande kartor, representeras en elastisk karta som en uppsättning kodvektorer (noder) i signalrummet. Datauppsättningen är indelad i klasser som består av de punkter som är närmare än andra ( ). Kodningsförvrängning $S$ $W_j$ $S$ $K_{j}$ $x\i S$ $W_j$ $W_{l}$ $l\neq j$ $D$

D=\summa _{{j=1}}^{k}\summa _{{x\in K_{j}}}\|x-W_{j}\|^{2},

kan tolkas som den totala energin hos fjädrar med enhetsstyvhet som förbinder datavektorerna med motsvarande kodvektorer.

En ytterligare struktur är inställd på uppsättningen av noder: vissa par är förbundna med "elastiska bindningar", och några trippel kombineras till "styvningsribbor". Låt oss beteckna uppsättningen av par förbundna med elastiska bindningar som , och uppsättningen av trippel som utgör förstyvningarna som . Till exempel, i ett kvadratiskt gitter, är de närmaste noderna (både vertikalt och horisontellt) förbundna med elastiska bindningar, och förstyvningar bildas av vertikala och horisontella trippel av de närmaste noderna. Kartdeformationsenergin består av två termer: $E$ $G$

dragkraft

U_{{E}}=\lambda \sum _{{(W_{i},W_{j})\in E}}\|W_{i}-W_{j}\|^{2};

böjningsenergi

U_{{G}}=\mu \sum _{{(W_{i},W_{j},W_{l})\in G}}\|W_{i}-2W_{j}+W_{l }\|^{2};

var är motsvarande elasticitetsmoduler. $\lambda ,\mu$

Uppgiften med att konstruera en elastisk karta är att minimera det funktionella

U=D+U_{{E}}+U_{{G}};

Om uppdelningen av uppsättningen indatavektorer i klasser är fixerad, är minimering ett linjärt problem med en gles matris av koefficienter. Därför, som för vektorkvantiseringsnätverk, tillämpas uppdelningsmetoden: fix - sök - sök efter data - sök efter data - ... Algoritmen konvergerar till ett (lokalt) minimum . $S$ $K_{j}$ $U$ $\{W_{j}\}$ $\{K_{j}\}$ $\{K_{j}\}$ $\{W_{j}\}$ $\{W_{j}\}$ $\{K_{j}\}$ $U$

Metoden med elastiska kartor tillåter att lösa alla problem som Kohonens självorganiserande kartor löser, men den har större regelbundenhet och förutsägbarhet. När böjmodulen ökar närmar sig de elastiska kartorna de linjära huvudkomponenterna. När båda elasticitetsmodulerna minskar förvandlas de till Kohonen vektorkvantiseringsnätverk. Elastiska kartor används för närvarande i stor utsträckning för multivariat dataanalys inom bioinformatik . [10] Motsvarande mjukvara är publicerad och fritt tillgänglig på webbplatsen för Curie Institute ( Paris ) [11] [12] . $\mu$

Figuren visar datavisualiseringsresultaten för bröstcancer . Dessa data innehåller 286 exempel som indikerar uttrycksnivån för 17816 gener [13] . De är tillgängliga online som ett nu klassiskt testfall för datavisualisering och kartläggning [14] .

Övervakade vektorkvantiseringsnätverk

Problemet med klassificering håller på att lösas . Antalet klasser kan vara vilket som helst. Vi presenterar algoritmen för två klasser, och . Inledningsvis, för träning av systemet, tas data emot, vars klass är känd. Uppgift: hitta för klassen ett visst antal kodvektorer , och för klassen något (eventuellt olika) antal kodvektorer på ett sådant sätt att det resulterande Kohonen-nätverket med kodvektorer , (vi kombinerar båda familjerna) klassificeras enligt följande beslutsregel: ${\mathbf {A} }$ ${\displaystyle {\mathbf {B} ))$ ${\mathbf {A} }$ ${\displaystyle k_{\mathbf {A} ))$ ${\displaystyle W_{j}^{\mathbf {A} ))$ ${\displaystyle {\mathbf {B} ))$ ${\displaystyle k_{\mathbf {B} ))$ ${\displaystyle W_{l}^{\mathbf {B} ))$ ${\displaystyle k_{\mathbf {A} }+k_{\mathbf {B} ))$ ${\displaystyle W_{j}^{\mathbf {A} ))$ ${\displaystyle W_{l}^{\mathbf {B} ))$

om för vektorn av ingångssignaler den närmaste kodvektorn ("vinnaren", som "tar allt" i Kohonen-lagret) tillhör familjen , så tillhör den klassen ; om kodvektorn närmast tillhör familjen , så tillhör den klassen .

x

\{W_{j}^{\mathbf {A} }\}

x

{\mathbf {A} }

x

{\displaystyle \{W_{l}^{\mathbf {B} }\))

x

{\displaystyle {\mathbf {B} ))

En Voronoi-Dirichlet-polytop är associerad med varje kodvektor i den sammanslagna familjen . Vi betecknar dessa polyedrar respektive . En klass i signalutrymmet motsvarar enligt beslutsregeln ett förbund och en klass motsvarar ett förbund . Geometrin för sådana förbund av polyedrar kan vara mycket komplex (se figuren för ett exempel på en möjlig indelning i klasser). ${\displaystyle \{W_{j}^{\mathbf {A} }\}\cup \{W_{l}^{\mathbf {B} }\))$ ${\displaystyle V_{j}^{\mathbf {A} ))$ $V_{l}^{\mathbf {B} }$ ${\mathbf {A} }$ ${\displaystyle \cup _{j}V_{j}^{\mathbf {A} ))$ ${\displaystyle {\mathbf {B} ))$ ${\displaystyle \cup _{l}V_{l}^{\mathbf {B} ))$

Online-nätverksinlärningsregler är baserade på den grundläggande vektorkvantiseringsnätverksinlärningsregeln. Låt systemets ingång vara en signalvektor , vars klass är känd. Om den klassificeras korrekt av systemet, förskjuts motsvarande kodvektor något mot signalvektorn ("belöning") $x$ $x$ $W$

W^{{{\rm {ny))))=W^{({\rm {gammal))))(1-\theta )+x\theta ,

Om den klassificeras felaktigt förskjuts motsvarande kodvektor något i motsatt riktning från signalen ("straff") $x$ $x$ $W$

W^{{{\rm {ny))))=W^{({\rm {gammal))))(1+\theta )-x\theta ,

var är inlärningssteget. För att säkerställa stabilitet används en onlinemetod med sjunkande inlärningshastighet. Det är också möjligt att använda olika steg för att "uppmuntra" till rätt beslut och för att "bestraffa" fel. $\theta \in(0,1)$

Detta är den enklaste (grundläggande) versionen av metoden [15] . Det finns många andra modifieringar.

Anteckningar

↑ Hur många typer av Kohonen-nätverk finns det? Internet FAQ Arkiv. Online utbildning . Hämtad 31 augusti 2008. Arkiverad från originalet 11 maj 2008. (obestämd)
↑ Hecht-Nielsen, R. (1990), Neurocomputing, Reading, MA: Addison-Wesley, ISBN 0-201-09355-3 .
↑ Kohonen, T. (1989/1997/2001), Self-Organizing Maps, Berlin-New York: Springer-Verlag. Första upplagan 1989, andra tredje upplagan 1997, utökad upplagan 2001, ISBN 0-387-51387-6 , ISBN 3-540-67921-9
↑ Kohonen, T. (1988), Learning Vector Quantization, Neural Networks, 1 (suppl 1), 303.
↑ Wasserman, F. Neurocomputer Engineering: Teori och praktik = Neural Computing. teori och praktik. — M .: Mir, 1992. — 240 sid. — ISBN 5-03-002115-9 . Arkiverad kopia (inte tillgänglig länk) . Hämtad 1 september 2008. Arkiverad från originalet 30 juni 2009. (obestämd)
↑ Interaktiva Voronoi- och Delaunay-diagram i realtid med källkod . Hämtad 1 september 2008. Arkiverad från originalet 1 september 2008. (obestämd)
↑ 1 2 3 Zinoviev A. Yu Visualisering av flerdimensionell data . - Krasnoyarsk: Ed. Krasnoyarsk State Technical University, 2000. - 180 sid.
↑ Avhandling av T. Hastie : Hastie T. , Principal curves and surfaces Arkiverad 21 februari 2017 på Wayback Machine , Ph.D-avhandling, Stanford Linear accelerator center, Stanford University, Stanford, Kalifornien, USA, november 1984. Även online PCA Arkiverad 7 november 2018 på Wayback Machine . Studiet av huvudsakliga grenrör började med detta arbete.
↑ Yin H. Att lära sig ickelinjära huvudmanifolds genom att självorganisera kartor Arkiverad 6 mars 2019 på Wayback Machine , i: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007. ISBN 978-3-540-73749- 0
↑ Gorban AN, Kegl B., Wunsch D., Zinovyev AY (Eds.), Principal Manifolds for Data Visualization and Dimension Reduction , Series: Lecture Notes in Computational Science and Engineering 58, Springer, Berlin - Heidelberg - New York, 2007, XXIV, 340 sid. 82 illus. ISBN 978-3-540-73749-0 (och även online Arkiverad 16 mars 2019 på Wayback Machine ).
↑ VIMIDA: en Java-applet för visualisering av MIcroarray-data . Hämtad 6 september 2008. Arkiverad från originalet 9 oktober 2008. (obestämd)
↑ ViDaExpert: en programvara för multidimensionell vektoriell datavisualisering . Hämtad 6 september 2008. Arkiverad från originalet 26 april 2012. (obestämd)
↑ Wang Y., Klijn JG, Zhang Y., Sieuwerts AM, Look MP, Yang F., Talantov D., Timmermans M., Meijer-van Gelder ME, Yu J. et al. Genuttrycksprofiler för att förutsäga avlägsna metastaser av lymfkörtelnegativ primär bröstcancer. Lancet 365 (2005), 671-679.
↑ Principal manifolds for data cartography and dimension reduction, Leicester, UK, August 2006. En webbsida med testmikroarrays-datauppsättningar tillhandahålls för deltagare i workshopen Arkiverad 24 september 2008 på Wayback Machine .
↑ DLVQ Fundamentals . Hämtad 7 november 2018. Arkiverad från originalet 19 december 2018. (obestämd)

Se även

Graf målarbok

Typer av artificiella neurala nätverk

Framkopplingsnätverk ( Network of Radial Basis Functions )
Enkelskiktsperceptron
Multilayer Perceptron ( Rosenblatt • Rumelhart )
Hopfield nätverk
Markov kedja
Boltzmann maskin
Begränsad Boltzmann-maskin
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variationell autoencoder )
Djup nät av förtroende
Konvolutionellt neuralt nätverk
Deep Convolutional Neural Network
Distribution Neural Network
Deep Convolutional Inverse Graphic Network
Generativt motståndsnätverk
Återkommande neurala nätverk
Rekursiva neurala nätverk
långtidsminne
Kontrollerat återkommande block
Neural Turing Machines
Dubbelriktat nätverk ( Dubbelriktat återkommande neuralt nätverk • Dubbelriktat nätverk med långtidsminne • Dubbelriktat kontrollerade återkommande neuroner )
Deep Residual Network
Neural ekotätverk
Extrem inlärningsmetod
Metod för instabila tillstånd
Stöd vektor maskin
Kohonen nätverk
Självorganiserande karta över Kohonen
Kapselneurala nätverk
Associativt minne på neurala nätverk

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG