Strukturell prognos

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 30 januari 2022; kontroller kräver 7 redigeringar .

Strukturell förutsägelse , eller strukturell inlärning , är en samlingsbeteckning för övervakade maskininlärningstekniker som involverar att förutse strukturella objekt.

Precis som övervakade inlärningstekniker tränas strukturella prediktionsmodeller på observerade data, där det sanna förutsagda värdet används för att titta på modellparametrar. På grund av modellens möjliga komplexitet och förhållandet mellan de predikterade variablerna är predikteringsprocessen med modellinlärning ofta inte beräkningsmässigt genomförbar, så ungefärliga slutsatser används .

Applikationer

Till exempel kan problemet med att översätta en naturlig språksats till en syntaktisk representation såsom ett parseträd ses som ett strukturellt prediktionsproblem där den strukturella slutledningsdomänen är uppsättningen av alla möjliga parseträd. Strukturell förutsägelse används också i ett brett spektrum av tillämpningar inklusive bioinformatik , naturlig språkbehandling , taligenkänning och datorseende .

Exempel: Sequence Markup

Sekvensmarkering är en klass av uppgifter som är utbredda inom naturlig språkbehandling . Indata i dem är ofta sekvenser (till exempel meningar i texten). I vissa versioner blir det nödvändigt att markera sådana sekvenser, till exempel markering av orddelar och igenkänning av namngivna enheter . I partiell uppmärkning måste till exempel varje ord i en sekvens få en " etikett " (etikettklass) som uttrycker ordets " typ :

Detta DT
är GL
a DT
taggade IP
mening IP

Huvudmålet med problemet med märkning av sekvenser är den korrekta definitionen av ett koncept (element av en sekvens) i närvaro av flera värden som är lämpliga för det. Till exempel kan ordet "sats" på engelska behandlas som både ett substantiv och ett verb. För korrekt förutsägelse måste ett ord tilldelas en klassetikett ("etikett").

Vid första anblicken kan problemet som beskrivs ovan lösas genom en enkel klassificering av enskilda element, men detta tillvägagångssätt tar inte hänsyn till det empiriska faktum att etiketter inte uppstår oberoende. Tvärtom visar varje etikett ett starkt villkorligt beroende av på etiketten för de föregående orden. Det vill säga på vilken etikett är till exempel ordet "sats" - ett verb eller ett adjektiv - etiketterna för andra ord i meningen beror. Detta faktum kan användas i modeller som förutsäger hela sekvensen av etiketter för en mening, till exempel en dold Markov-modell eller ett villkorligt slumpmässigt fält [1] . För modeller som använder individuella etiketter, såsom Viterbi-algoritmen , är denna metod inte lämplig.

Tekniker

Grafiska probabilistiska modeller bildar en stor klass av strukturella förutsägelsemodeller . I synnerhet är Bayesianska nätverk och slumpmässiga fält populära . Andra algoritmer och modeller för strukturell förutsägelse inkluderar induktiv logikprogrammering , fallbaserade resonemang , strukturella stödvektormaskiner , Markov-logiska nätverk och begränsade villkorsmodeller . Grundläggande tekniker:

Strukturell perceptron

Ett av de enklaste sätten att förstå allmänna strukturella prediktionsalgoritmer är Collins Structural Perceptron [2] . Denna algoritm kombinerar perceptronalgoritmen för att träna linjära klassificerare med en slutledningsalgoritm (klassiskt Viterbi-algoritmen om den används för seriella data) och kan beskrivas abstrakt enligt följande:

Vi definierar en "gemensam funktionsfunktion" Φ( x , y ) som mappar träningsobjekt x och predikterad kandidat y till en vektor med längden n. I det här fallet kan x och y ha vilken struktur som helst, och värdet på n beror på uppgiften, men är fast för varje modell. Låt GEN vara en funktion som genererar en prediktorkandidat. Sedan:

Låta vara en vektor av vikter med längden n För ett fördefinierat antal iterationer: För varje instans i den sanna slutledningsträningsuppsättningen : Att göra en förutsägelse Uppdatering , från till : , är inlärningshastigheten.

I praktiken kan hitta Argmax på göras med en algoritm som Viterbi-algoritmen eller maxsumma- algoritmen , snarare än en uttömmande sökning över en exponentiellt stor uppsättning kandidater.

Idén med att lära liknar en perceptron med många klasser .

Anteckningar

  1. Lafferty, McCallum, Pereira, 2001 , sid. 282–289.
  2. Collins, 2002 .

Litteratur

Länkar