Strukturell prognos

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 30 januari 2022; kontroller kräver 7 redigeringar .

Strukturell förutsägelse , eller strukturell inlärning , är en samlingsbeteckning för övervakade maskininlärningstekniker som involverar att förutse strukturella objekt.

Precis som övervakade inlärningstekniker tränas strukturella prediktionsmodeller på observerade data, där det sanna förutsagda värdet används för att titta på modellparametrar. På grund av modellens möjliga komplexitet och förhållandet mellan de predikterade variablerna är predikteringsprocessen med modellinlärning ofta inte beräkningsmässigt genomförbar, så ungefärliga slutsatser används .

Applikationer

Till exempel kan problemet med att översätta en naturlig språksats till en syntaktisk representation såsom ett parseträd ses som ett strukturellt prediktionsproblem där den strukturella slutledningsdomänen är uppsättningen av alla möjliga parseträd. Strukturell förutsägelse används också i ett brett spektrum av tillämpningar inklusive bioinformatik , naturlig språkbehandling , taligenkänning och datorseende .

Exempel: Sequence Markup

Sekvensmarkering är en klass av uppgifter som är utbredda inom naturlig språkbehandling . Indata i dem är ofta sekvenser (till exempel meningar i texten). I vissa versioner blir det nödvändigt att markera sådana sekvenser, till exempel markering av orddelar och igenkänning av namngivna enheter . I partiell uppmärkning måste till exempel varje ord i en sekvens få en " etikett " (etikettklass) som uttrycker ordets " typ :

Detta	DT
är	GL
a	DT
taggade	IP
mening	IP

Huvudmålet med problemet med märkning av sekvenser är den korrekta definitionen av ett koncept (element av en sekvens) i närvaro av flera värden som är lämpliga för det. Till exempel kan ordet "sats" på engelska behandlas som både ett substantiv och ett verb. För korrekt förutsägelse måste ett ord tilldelas en klassetikett ("etikett").

Vid första anblicken kan problemet som beskrivs ovan lösas genom en enkel klassificering av enskilda element, men detta tillvägagångssätt tar inte hänsyn till det empiriska faktum att etiketter inte uppstår oberoende. Tvärtom visar varje etikett ett starkt villkorligt beroende av på etiketten för de föregående orden. Det vill säga på vilken etikett är till exempel ordet "sats" - ett verb eller ett adjektiv - etiketterna för andra ord i meningen beror. Detta faktum kan användas i modeller som förutsäger hela sekvensen av etiketter för en mening, till exempel en dold Markov-modell eller ett villkorligt slumpmässigt fält [1] . För modeller som använder individuella etiketter, såsom Viterbi-algoritmen , är denna metod inte lämplig.

Tekniker

Grafiska probabilistiska modeller bildar en stor klass av strukturella förutsägelsemodeller . I synnerhet är Bayesianska nätverk och slumpmässiga fält populära . Andra algoritmer och modeller för strukturell förutsägelse inkluderar induktiv logikprogrammering , fallbaserade resonemang , strukturella stödvektormaskiner , Markov-logiska nätverk och begränsade villkorsmodeller . Grundläggande tekniker:

Villkorligt slumpmässigt fält
Strukturell stödvektormaskin
Strukturell k-närmaste granne metod
Återkommande neurala nätverk , speciellt Elmans neurala nätverk

Strukturell perceptron

Ett av de enklaste sätten att förstå allmänna strukturella prediktionsalgoritmer är Collins Structural Perceptron [2] . Denna algoritm kombinerar perceptronalgoritmen för att träna linjära klassificerare med en slutledningsalgoritm (klassiskt Viterbi-algoritmen om den används för seriella data) och kan beskrivas abstrakt enligt följande:

Vi definierar en "gemensam funktionsfunktion" Φ( x , y ) som mappar träningsobjekt x och predikterad kandidat y till en vektor med längden n. I det här fallet kan x och y ha vilken struktur som helst, och värdet på n beror på uppgiften, men är fast för varje modell. Låt GEN vara en funktion som genererar en prediktorkandidat. Sedan:

Låta vara en vektor av vikter med längden n

w

För ett fördefinierat antal iterationer: För varje instans i den sanna slutledningsträningsuppsättningen :

x

t

Att göra en förutsägelse

{\hat {y}}={\operatörsnamn {arg\,max} }\,\{{y}\in {GEN}({x})\}\,({w}^{T} \,\phi ({x},{y}))

Uppdatering , från till : , är inlärningshastigheten.

w

{\hat {y))

t

{w}={w}+{c}(-\phi ({x},{\hat {y)))+\phi ({x},{t}))

c

I praktiken kan hitta Argmax på göras med en algoritm som Viterbi-algoritmen eller maxsumma- algoritmen , snarare än en uttömmande sökning över en exponentiellt stor uppsättning kandidater. ${GEN}({x})$

Idén med att lära liknar en perceptron med många klasser .

Anteckningar

↑ Lafferty, McCallum, Pereira, 2001 , sid. 282–289.
↑ Collins, 2002 .

Litteratur

Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola, SVN Vishwanathan. Förutsäga strukturerad data . — MIT Press, 2007.
Lafferty J., McCallum A., Pereira F. Villkorliga slumpmässiga fält: Probabilistiska modeller för segmentering och märkning av sekvensdata // Proc. 18:e internationella konf. om maskininlärning . — 2001. Arkiverad 7 juni 2013 på Wayback Machine
Michael Collins. Diskriminerande träningsmetoder för dolda Markov-modeller: Teori och experiment med perceptronalgoritmer // Proc. EMNLP . - 2002. - V. 10. Arkivexemplar av 8 december 2006 på Wayback Machine
Noah Smith, Linguistic Structure Prediction , 2011.

Länkar

Implementering av Collins strukturerad perceptron

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-nät Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG