Grammatisk härledning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 27 oktober 2021; verifiering kräver 1 redigering .

Grammatikinduktion (eller grammatisk inferens [1] ) är en maskininlärningsprocedur som återställer den formella grammatiken för ett språk baserat på en uppsättning observationer (exempel) med en känd tillhörighet till detta språk. Som ett resultat av proceduren byggs en modell av observerbara objekt i form av en uppsättning inferensregler eller genererande regler , en finit automat eller en automat av annan typ. Mer generellt är grammatisk slutledning ett av områdena för maskininlärning där exempelutrymmet består av diskreta kombinatoriska objekt som strängar, träd, grafer.

Grammatikklasser

Grammatisk slutledning fokuserar ofta på problemet med att lära sig finita automater av olika typer (se artikeln Regular Language Induction för detaljer om dessa tillvägagångssätt), eftersom det har funnits effektiva algoritmer för att lösa detta problem sedan 1980-talet.

Sedan början av 2000-talet har dessa tillvägagångssätt utvidgats till uppgiften att sluta sig till sammanhangsfria grammatiker och rikare formalismer som flera sammanhangsfria grammatiker och parallella flera sammanhangsfria grammatiker. Andra klasser av grammatik för vilka grammatisk slutledning studerades studerades också för andra klasser av grammatik-kontextuell grammatik och mönsterspråk .

Inlärningsmodeller

Den enklaste typen av inlärning är när inlärningsalgoritmen endast får en uppsättning exempel, och ibland motexempel, på orden i språket i fråga. Det finns andra inlärningsmodeller också. Ett av de ofta studerade alternativen är fallet när eleven kan fråga om ordets tillhörighet till språket, som till exempel i den exakta inlärningsmodellen eller den minimalt adekvata lärarmodellen som introducerats av Angluin [2] .

Metoder

En mängd olika metoder för grammatisk slutledning har utvecklats. De två klassiska källorna är Fus artiklar från 1977 [3] och 1982 [4] . Duda, Hart och Stork [5] ägnade också ett litet avsnitt åt detta problem och citerar många källor. Den grundläggande trial and error-metoden de presenterade diskuteras nedan. För tillvägagångssätt för att underklassa vanliga språk , se i synnerhet Induction of Regular Languages . En nyare bok är de la Higueras (2010) [1] , som täcker teorin om grammatisk slutledning i vanliga språk och finita automater. D'Ulisia, Ferri och Grifoni [6] granskade forskning om inferensmetoder för naturliga språk.

Grammatisk härledning genom försök och misstag

Metoden som föreslås i avsnitt 8.7 i Dowd, Hart och Stork [5] föreslår sekventiell gissning av grammatiska regler och testning av dem mot positiva och negativa observationer. Regeluppsättningen utökas så att varje positivt exempel kan genereras, men om en given regeluppsättning genererar ett negativt exempel måste det kasseras. Detta speciella tillvägagångssätt kan beskrivas som "hypotestestning" och påminner något om versionsutrymmet Mitchells algoritm . Texten i artikeln av Dowd, Hart och Storck [5] ger ett enkelt exempel som illustrerar processen väl, men genomförbarheten av en sådan ostyrd trial and error-metod för större problem är tveksam.

Grammatisk slutledning med hjälp av genetiska algoritmer

Grammatisk slutledning med hjälp av evolutionära algoritmer är processen för evolution av representationen av målspråkets grammatik genom någon evolutionär process. Formell grammatik kan lätt representeras som träd av slutledningsregler som evolutionära operatorer kan tillämpas på. Algoritmer av detta slag har sitt ursprung i genetisk programmering , som pionjärer av John Koza . Andra tidiga arbeten på enkla formella språk använde en binär strängrepresentation av genetiska algoritmer, men den interna hierarkiska strukturen av grammatik som ligger till grund för språket Backus-Naur Augmented Form gör träd till ett mer flexibelt tillvägagångssätt.

Koza introducerade Lisp- program som träd. Han lyckades hitta analogier mellan genetiska operatörer och standardoperatörer på träd. Till exempel är subträdbyte likvärdigt med motsvarande process av genetisk korsning , där understrängar av den genetiska koden omvandlas till nästa generations individualitet. Giltighet mäts genom att utvärdera utgångskoden en Lisp - funktion . Liknande analogier mellan trädstrukturerna i Lisps representationer och trädrepresentationerna av grammatik gör tekniken att tillämpa genetisk programmering möjlig för grammatikinduktion.

När det gäller grammatikinduktion motsvarar överföringen av underträd utbyte av slutledningsregler, vilket gör det möjligt att analysera fraser för ett visst språk. Giltighetsoperatorn för en grammatik baseras på ett mått på hur väl den analyserar en grupp meningar från målspråket. I trädrepresentationen av grammatiken motsvarar terminalsymbolen för genereringsregeln ett blad av trädet. Dess överordnade nod matchar ett icke-terminalt tecken (som en substantivfras eller verbfras ) i regeluppsättningen. När allt kommer omkring kan rotnoden motsvara en sekvens av icke-terminaler.

Grammatisk härledning med giriga algoritmer

Som alla giriga algoritmer fattar giriga slutledningsalgoritmer iterativt det beslut som verkar bäst i det skedet. Ett beslut förstås vanligtvis som att skapa en ny regel, ta bort en befintlig regel, välja en tillämplig regel, slå samman befintliga regler. Eftersom begreppen "scen" och "bäst" kan definieras på olika sätt har flera giriga slutledningsalgoritmer skapats.

Följande algoritmer för att generera kontextfria grammatiker fattar ett beslut efter att varje tecken läst:

Lempel-Ziv-Welch-algoritmen genererar en kontextfri grammatik på ett deterministiskt sätt, så att endast startregeln för den genererade grammatiken behöver komma ihåg.
Sequitur och dess modifieringar.

Följande algoritmer för att generera sammanhangsfria grammatiker läser först hela teckensekvensen och börjar sedan fatta beslut:

byteparkodning och dess optimerade varianter.

Distributivt lärande

Nyare tillvägagångssätt är baserade på distributivt lärande . Algoritmer som använder dessa tillvägagångssätt har använts för att lära ut sammanhangsfria grammatiker och något kontextkänsliga språk , och har visat sig vara korrekta och effektiva för stora underklasser av dessa grammatiker [7] [8]

Undervisning i exempelspråk

Angluin definierade ett mönster som "en sträng av konstanta tecken från alfabetet Σ och variabla tecken från en disjunkt uppsättning". Språket för sådana mönster är uppsättningen av alla icke-tomma basexempel, det vill säga alla strängar som erhålls genom att på lämpligt sätt ersätta variabla tecken med icke-tomma strängar med konstanta tecken [not 1] . Ett mönster sägs vara beskrivande för en ändlig uppsättning strängar om dess språk är minimalt (med tanke på att mängden ingår) bland alla mönsterspråk, inklusive inmatningsuppsättningen.

Angluin har gett en polynomalgoritm för att beräkna, från en given ingångsuppsättning rader, alla beskrivande mönster från en enda variabel x[not 2] . För detta ändamål bygger hon en automat som representerar alla möjliga relevanta mönster. Genom att använda sofistikerade argument om ordlängder som bara beror på en enda variabel xkan antalet tillstånd reduceras avsevärt [9] .

Erlebach et al gav en effektivare version av Angluins mönsterinlärningsalgoritm, såväl som en parallell version av algoritmen [10] .

Arimura et al. har visat att en klass av språk som erhållits från en begränsad pool av prover kan tränas i polynomtid [11] .

Mönsterteori

Mönsterteori ( eng. mönsterteori ), formulerad av Ulf Grenander [12] , är en matematisk formalism för att beskriva kunskap om världen i form av mönster. Skillnaden mellan den föreslagna metoden för artificiell intelligens från andra är att den inte börjar med definitionen av algoritmer och maskiner för mönsterigenkänning och klassificering. Snarare föreskriver metoden en vokabulär för att formulera och skriva om mönster i exakt språk.

Utöver det nya algebraiska språket har ett nytt statistiskt tillvägagångssätt införts med syftet att:

Känn igen de latenta variablerna i en datamängd med hjälp av verkliga data snarare än artificiella influenser.
Definitioner av tidigare distributioner av latenta variabler och modeller för observerade variabler som bildar hörn i en graf som Gibbs-grafen.
Studera slumpmässigheten och variationen i dessa grafer.
Skapande av basklasser av stokastiska modeller tillämpade genom att räkna upp deformationer[ okänd term ] prover.
Implementering av syntes ( sampling ) med hjälp av modeller, och inte bara studiet av signaler

Applikationer

Principerna för grammatikinduktion har tillämpats på andra aspekter av naturlig språkbehandling och (bland många andra uppgifter) på naturlig språkuppfattning [13] , exempelbaserad maskinöversättning [14] , morfemanalys och härledning av ortnamnens ursprung. Grammatikinduktion har också använts för förlustfri komprimering [15] och statistisk slutledning genom principerna för meddelanden med minsta längd och beskrivningar av minsta längd . Grammatikinduktion har också använts i vissa probabilistiska modeller för språkinlärning [16] .

Se även

Artificiell intelligens
Maskinöversättning baserad på exempel
Induktiv programmering
Kolmogorov komplexitet
Rak grammatik
Syntaktisk mönsterigenkänning

Anteckningar

↑ Ett mönsterspråk med minst två förekomster av samma variabel är inte regelbundet på grund av det pumpande lemmat .
↑ x kan förekomma flera gånger, men får inte vara någon annan variabely

↑ 12 de la Higuera, 2010 .
↑ Angluin, 1987 , sid. 87–106.
↑ Fu, 1977 .
↑ Fu, 1982 .
↑ 1 2 3 Duda, Hart, Stork, 2001 .
↑ D'Ulizia, Ferri, Grifoni, 2011 , sid. 1–27.
↑ Clark, Eyraud, 2007 .
↑ Yoshinaka, 2011 , sid. 1821-183.
↑ Angluin, 1980 , sid. 46–62.
↑ Erlebach, Rossmanith, Stadtherr, Steger, Zeugmann, 1997 , sid. 260–276.
↑ Arimura, Shinohara, Otsuki, 1994 , sid. 649–660.
↑ Grenander, Miller, 2007 .
↑ Miller, Bobrow, Schwartz, 1994 .
↑ Brown, 2001 .
↑ Cherniavsky, Ladner, 2004 .
↑ Chater, Manning, 2006 , sid. 335-344.

Litteratur

Colin de la Higuera. Grammatisk slutledning: Att lära sig automater och grammatiker . — Cambridge: Cambridge University Press, 2010.
Ulf Grenander, Michael I. Miller. Mönsterteori: från representation till slutledning. - Oxford university press, 2007. - ISBN 0-19-850570-1.
Alexander Clark, Remi Eyraud. Polynomidentifiering inom gränsen för utbytbara kontextfria språk // Journal of Machine Learning Research. – 2007.
Ryo Yoshinaka. Effektiv inlärning av flera sammanhangsfria språk med flerdimensionell utbytbarhet från positiva data // Teoretisk datavetenskap. - 2011. - T. 412 , nr. 19 . - S. 1821-1831 .
Scott Miller, Robert J. Bobrow, Richard M. Schwartz. Dolda förståelsemodeller av naturligt språk // Proceedings of the 32nd annual meeting on Association for Computational Linguistics. . — Association for Computational Linguistics, 1994.
Ralph D. Brown. Överföringsregelinduktion för exempelbaserad översättning // Proceedings of the MT Summit VIII Workshop on Exempelbaserad maskinöversättning. – 2001.
Neva Cherniavsky, Richard Ladner. Grammatikbaserad komprimering av DNA-sekvenser // DIMACS Working Group on The Burrows-Wheeler Transform . – 2004.
Nick Chater, Christopher D. Manning. Probabilistiska modeller för språkbearbetning och inlärning // Trender inom kognitionsvetenskap . – 2006.
Dana Angluin. Att lära sig vanliga uppsättningar från frågor och motexempel // Information och kontroll . - 1987. - T. 75 . — s. 87–106 . - doi : 10.1016/0890-5401(87)90052-6 . Arkiverad från originalet den 2 december 2013.
D'Ulizia A., Ferri F., Grifoni P. En undersökning av grammatiska slutledningsmetoder för naturligt språkinlärning // Artificiell intelligens. - 2011. - T. 36 , nr 1 .
Dana Angluin. Hitta mönster som är gemensamma för en uppsättning strängar // Journal of Computer and System Sciences. - 1980. - T. 21 . - doi : 10.1016/0022-0000(80)90041-0 .
Erlebach T., Rossmanith P., Stadtherr H., Steger A., Zeugmann T. Att lära sig ett-variabelt mönsterspråk mycket effektivt i genomsnitt, parallellt och genom att ställa frågor // Proc. 8:e internationella workshop om algoritmisk inlärningsteori - ALT'97 / M. Li, A. Maruoka. - Springer, 1997. - T. 1316. - (LNAI).
Hiroki Arimura, Takeshi Shinohara, Setsuko Otsuki. Hitta minimala generaliseringar för sammanslutningar av mönsterspråk och dess tillämpning på induktiv slutledning från positiva data // Proc. STACS 11. - Springer, 1994. - T. 775. - (LNCS).
Richard O. Duda, Peter E. Hart, David G. Stork. Mönsterklassificering . - 2. - New York : John Wiley & Sons, 2001.
Kung Sun Fu. Syntaktisk mönsterigenkänning och tillämpningar. - Englewood Cliffs, NJ: Prentice-Hall, 1982.
Kung Sun Fu. Syntaktisk mönsterigenkänning, applikationer. — Berlin : Springer-Verlag, 1977.
James Jay Horning. En studie av grammatisk slutledning . - Stanford : Stanford University Computer Science Department, 1969. - (Ph.D.-avhandling).
E. Mark Gold. Språkidentifiering inom gränsen . - Information och kontroll , 1967. - T. 10 . — S. 447–474 . Arkiverad från originalet den 28 augusti 2016.

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-nät Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG