Begränsad Boltzmann-maskin

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 23 maj 2021; kontroller kräver 3 redigeringar .

Begränsad Boltzmann-maskin ( eng. restricted Boltzmann machine ), förkortad RBM , är en typ av generativt stokastiskt neuralt nätverk som bestämmer sannolikhetsfördelningen på indataprover.

Den första begränsade Boltzmann-maskinen byggdes 1986 av Paul Smolensky under namnet Harmonium [1] , men blev populär först efter Hintons uppfinning av snabbinlärningsalgoritmer i mitten av 2000-talet.

Maskinen fick detta namn som en modifiering av den vanliga Boltzmann-maskinen , där neuroner delades in i synliga och dolda, och anslutningar är endast tillåtna mellan neuroner av olika typer, vilket begränsar anslutningarna. Långt senare, på 2000-talet, blev begränsade Boltzmann-maskiner mer populära och betraktades inte längre som varianter av Boltzmann-maskinen, utan som speciella komponenter i arkitekturen för nätverk för djupinlärning . Genom att kombinera flera kaskader av avgränsade Boltzmann-maskiner bildas ett djupt trosnätverk , en speciell sorts neurala nätverk i flera lager som kan lära sig själv utan att en lärare använder backpropagation-algoritmen [2] .

En egenskap hos begränsade Boltzmann-maskiner är möjligheten att tränas utan lärare , men i vissa tillämpningar tränas begränsade Boltzmann-maskiner med en lärare. Det dolda lagret av maskinen är de djupa funktionerna i data som avslöjas under inlärningsprocessen (se även Data mining ).

Bounded Boltzmann-maskiner har ett brett spektrum av applikationer - dessa är problem med minskning av datadimensionalitet [ 3 ] , klassificeringsproblem [4] , kollaborativ filtrering [5] , funktionsinlärning [ 6] och ämnesmodellering [ 7 ] .

I en begränsad Boltzmann-maskin bildar neuroner en tvådelad graf , på ena sidan av grafen finns synliga neuroner (ingång), och på den andra sidan, dolda och tvärbindningar etableras mellan varje synlig och varje gömd neuron. Ett sådant system av anslutningar gör det möjligt att tillämpa metoden för gradientnedstigning med kontrastiv divergens vid träning av nätverket [8] .

Nätverksstruktur

Den begränsade Boltzmann-maskinen är baserad på binära element med en Bernoulli-distribution som utgör de synliga och dolda lagren i nätverket. Länkar mellan lager specificeras med hjälp av en matris av vikter (storlek m × n ), samt förskjutningar för det synliga lagret och för det dolda lagret. $v_{i}$ ${\displaystyle h_{j))$ $W=(w_{i,j})$ $a_{i}$ $b_{j}$

Begreppet nätverksenergi ( v , h ) introduceras som

E(v,h)=-\summa _{i}a_{i}v_{i}-\summa _{j}b_{j}h_{j}-\summa _{i}\summa _ {j}v_{i}w_{i,j}h_{j},

eller i matrisform

E(v,h)=-a^{\mathrm {T} }vb^{\mathrm {T} }hv^{\mathrm {T} }Wh.

Hopfield-nätverket har också en liknande energifunktion . När det gäller den vanliga Boltzmann-maskinen bestäms sannolikheten för distribution på vektorerna för de synliga och dolda lagren genom energi [9] :

P(v,h)={\frac {1}{Z}}e^{-E(v,h)},

var är partitionsfunktionen definierad som för alla möjliga nätverk (med andra ord är en normaliseringskonstant som garanterar att summan av alla sannolikheter är lika med en). Bestämningen av sannolikheten för en separat ingångsvektor (marginalfördelning) utförs på liknande sätt genom summan av konfigurationer av alla möjliga dolda lager [9] : $Z$ ${\displaystyle \sum e^{-E(v,h)))$ $Z$

P(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}.

På grund av nätverkets struktur som en tvådelad graf är de individuella elementen i det dolda lagret oberoende av varandra och aktiverar det synliga lagret, och vice versa, de enskilda elementen i det synliga lagret är oberoende av varandra och aktiverar det dolda lager [8] . För synliga element och för dolda element bestäms de villkorliga sannolikheterna v genom produkterna av sannolikheterna h : $m$ $n$

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h),

och vice versa, de villkorliga sannolikheterna h definieras i termer av produkten av sannolikheterna v :

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v).

Specifika aktiveringssannolikheter för ett element definieras som

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)

och

P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right) ,

var är logistikfunktionen för lageraktivering. $\sigma$

De synliga lagren kan också ha en multinomial fördelning , medan de dolda lagren har en Bernoulli- fördelning . I fallet med multinomialitet används softmax istället för logistikfunktionen :

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_ {j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j })}},

där K är antalet diskreta värden av synliga element. Denna representation används i ämnesmodelleringsproblem [ 7] och i rekommendatorsystem [5] .

Relation med andra modeller

Den begränsade Boltzmann-maskinen är ett specialfall av den vanliga Boltzmann-maskinen och Markov-nätverket [10] [11] . Deras grafmodell motsvarar grafmodellen för faktoranalys [12] .

Inlärningsalgoritm

Inlärningsmålet är att maximera sannolikheten för ett system med en given uppsättning sampel (en matris där varje rad motsvarar ett sampel av den synliga vektorn ), definierad som produkten av sannolikheterna $V$ $v$

\arg \max _{W}\prod _{v\in V}P(v),

eller, vilket är detsamma, maximera produktens logaritm: [10] [11]

\arg \max _{W}\mathbb {E} [\log P(v)].

För att träna det neurala nätverket används algoritmen för kontrastiv divergens (CD) för att hitta de optimala matrisvikterna , det föreslogs av Geoffrey Hinton , ursprungligen för att träna PoE-modeller (“produkt av expertuppskattningar”) [13] [14] . Algoritmen använder Gibbs sampling för att organisera en gradientnedstigningsprocedur , liknande backpropagation-metoden för neurala nätverk. $W$

I allmänhet ser ett steg av kontrastiv divergens (CD-1) ut så här:

För ett dataprov v beräknas de dolda elementsannolikheterna och aktivering tillämpas för det dolda lagret h för den givna sannolikhetsfördelningen.
Den yttre produkten (sampling) för v och h beräknas , vilket kallas den positiva gradienten .
Genom provet h rekonstrueras provet av det synliga lagret v' , och sedan utförs provtagning igen med aktivering av det dolda lagret h' . (Detta steg kallas Gibbs Sampling .)
Därefter beräknas den yttre produkten , men redan vektorerna v' och h' , som kallas den negativa gradienten .
Viktmatrisen korrigeras för skillnaden mellan den positiva och negativa gradienten, multiplicerad med en faktor som anger inlärningshastigheten: . $W$ $\Delta W=\varepsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$
Bias a och b korrigeras på liknande sätt: , . $\Delta a=\varepsilon (vv')$ $\Delta b=\varepsilon (hh')$

Praktisk vägledning för att implementera inlärningsprocessen finns på Jeffrey Hintons personliga sida [9] .

Se även

Länkar

↑ Smolensky, Paul. Kapitel 6: Informationsbehandling i dynamiska system: Grunderna för harmoniteori // Parallell distribuerad bearbetning: Explorations in the Microstructure of Cognition, Volym 1: Foundations (engelska) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - P. 194-281. — ISBN 0-262-68053-X . Arkiverad kopia (inte tillgänglig länk) . Hämtad 10 november 2017. Arkiverad från originalet 13 juni 2013. (obestämd)
↑ Hinton, G. Deep belief networks (obestämd) // Scholarpedia . - 2009. - T. 4 , nr 5 . - S. 5947 . doi : 10.4249 /scholarpedia.5947 .
↑ Hinton, G.E.; Salakhutdinov, RR Reducing the Dimensionality of Data with Neural Networks (engelska) // Science : journal. - 2006. - Vol. 313 , nr. 5786 . - S. 504-507 . - doi : 10.1126/science.1127647 . — PMID 16873662 .
↑ Larochelle, H.; Bengio, Y. (2008). Klassificering med diskriminerande begränsade Boltzmann-maskiner (PDF) . Handlingar från den 25:e internationella konferensen om maskininlärning - ICML '08. sid. 536. DOI : 10.1145/1390156.1390224 . ISBN 9781605582054 . Arkiverad från originalet (PDF) 2017-10-13 . Hämtad 2017-11-10 . Utfasad parameter används |deadlink=( hjälp )
↑ 1 2 Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Begränsade Boltzmann-maskiner för kollaborativ filtrering . Handlingar från den 24:e internationella konferensen om maskininlärning - ICML '07. sid. 791. doi : 10.1145/ 1273496.1273596 . ISBN 9781595937933 .
↑ Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). En analys av enskiktsnätverk i oövervakad funktionsinlärning (PDF) . Internationell konferens om artificiell intelligens och statistik (AISTATS). Arkiverad från originalet (PDF) 2014-12-20 . Hämtad 2017-11-10 . Utfasad parameter används |deadlink=( hjälp )
↑ 1 2 Ruslan Salakhutdinov och Geoffrey Hinton (2010). Replikerad softmax: en oriktad ämnesmodell Arkiverad 25 maj 2012 på Wayback Machine . Neurala informationsbearbetningssystem 23
↑ 1 2 Miguel A. Carreira-Perpiñán och Geoffrey Hinton (2005). Om kontrastiv divergensinlärning. Artificiell intelligens och statistik .
↑ 1 2 3 Geoffrey Hinton (2010). En praktisk guide till utbildning av begränsade Boltzmann-maskiner Arkiverad 25 september 2014 på Wayback Machine . UTML TR 2010-003, University of Toronto.
↑ 1 2 Sutskever, Ilja; Tieleman, Tijmen. Om konvergensegenskaperna för kontrastysiv divergens // Proc . 13th Int'l Conf. om AI och statistik (AISTATS): tidskrift. - 2010. Arkiverad den 10 juni 2015.
↑ 1 2 Asja Fischer och Christian Igel. Träningsbegränsade Boltzmann-maskiner: en introduktion . Arkiverad 10 juni 2015 på Wayback Machine . Mönsterigenkänning 47, sid. 25-39, 2014.
↑ María Angélica Cueto; Jason Morton; Bernd Sturmfels. Geometry of the restricted Boltzmann machine (neopr.) // Algebraic Methods in Statistics and Probability. - American Mathematical Society, 2010. - V. 516 . - arXiv : 0908.4425 . (inte tillgänglig länk)
↑ Geoffrey Hinton (1999). Produkter från experter Arkiverade 24 september 2015 på Wayback Machine . ICANN 1999 .
↑ Hinton, GE Utbildningsprodukter av experter genom att minimera kontrastiv divergens // Neural Computation : journal. - 2002. - Vol. 14 , nr. 8 . - P. 1771-1800 . - doi : 10.1162/089976602760128018 . — PMID 12180402 .

Litteratur

Introduktion till begränsade Boltzmann-maskiner Arkiverad 29 oktober 2012 på Wayback Machine . Edwin Chens blogg, 18 juli 2011.
En nybörjarguide till begränsade Boltzmann-maskiner . Deeplearning4j dokumentation
Förstå RBMs . Deeplearning4j Documentation, 4 augusti 2015.
Python- implementering Arkiverad 5 mars 2017 på Wayback Machine av Bernoulli RBM och handledning Arkiverad 5 mars 2017 på Wayback Machine
SimpleRBM Arkiverad 10 juni 2018 på Wayback Machine är en mycket liten RBM-kod (24kB) användbar för dig att lära dig om hur RBM:er lär sig.

Typer av artificiella neurala nätverk

Framkopplingsnätverk ( Network of Radial Basis Functions )
Enkelskiktsperceptron
Multilayer Perceptron ( Rosenblatt • Rumelhart )
Hopfield nätverk
Markov kedja
Boltzmann maskin
Begränsad Boltzmann-maskin
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variationell autoencoder )
Djup nät av förtroende
Konvolutionellt neuralt nätverk
Deep Convolutional Neural Network
Distribution Neural Network
Deep Convolutional Inverse Graphic Network
Generativt motståndsnätverk
Återkommande neurala nätverk
Rekursiva neurala nätverk
långtidsminne
Kontrollerat återkommande block
Neural Turing Machines
Dubbelriktat nätverk ( Dubbelriktat återkommande neuralt nätverk • Dubbelriktat nätverk med långt korttidsminne • Dubbelriktat kontrollerade återkommande neuroner )
Deep Residual Network
Neural eko nätverk
Extrem inlärningsmetod
Metod för instabila tillstånd
Stöd vektor maskin
Kohonen nätverk
Självorganiserande karta över Kohonen
Kapselneurala nätverk
Associativt minne på neurala nätverk

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-nät Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG