Inom lingvistik är en korpus (i denna mening är plural corpus , inte corpus [1] ) en uppsättning texter utvalda och bearbetade enligt vissa regler, som används som grund för att studera ett språk. De används för statistisk analys och statistisk hypotestestning , för att validera språkliga regler på ett visst språk. Textkorpusen är ämne för studier i korpuslingvistik .
Bland de många definitionerna av korpusen kan dess huvudsakliga egenskaper särskiljas :
Corpora kan klassificeras enligt olika kriterier: syftet med att skapa korpusen, typen av språkdata, "litterär", genre, dynamik, typ av uppmärkning, volym av texter och så vidare. Enligt kriteriet parallellism kan till exempel korpora delas in i enspråkig, tvåspråkig och flerspråkig. Flerspråkiga och tvåspråkiga är indelade i två typer:
Markeringen består i att tillskriva speciella taggar till texter och deras komponenter : språkliga och externa (extralinguistiska). Följande språkliga typer av uppmärkning särskiljs: morfologisk, semantisk, syntaktisk, anaforisk, prosodisk, diskurs, etc. Ytterligare strukturella analysnivåer tillämpas på vissa korpus. I synnerhet kan vissa små korpus vara helt syntaktisk märkta. Sådana korpus brukar kallas djupt kommenterade eller syntaktiska korpus , och själva den syntaktiska strukturen är ett beroendeträd .
Manuell uppmärkning (annotering) av texter är en dyr och tidskrävande uppgift. För tillfället presenteras olika mjukvaruverktyg för att markera korpora i det offentliga området [3] . Konventionellt kan de delas in i separata (fristående) och webborienterade (webbaserade) . Samtidigt har utvecklarnas fokus under de senaste åren flyttats mot webbapplikationer. Dessa system har ett antal fördelar:
Modern teknik gör det möjligt att skapa "webcorpora", det vill säga korpor erhållna genom att bearbeta internetkällor:
En webbkorpus är en speciell typ av språklig korpus, som skapas genom att gradvis ladda ner texter från Internet med hjälp av automatiserade procedurer som bestämmer språket och kodningen av enskilda webbsidor i farten, tar bort mallar, navigeringselement, länkar och annonser (den så kallad boilerplate), utföra transformation till text, filtrering, normalisering och deduplicering av de mottagna dokumenten, som sedan kan bearbetas med traditionella verktyg för korpuslingvistik (tokenisering, mirfosyntaktisk och syntaktisk annotering) och implementeras i ett sökkorpussystem. Att skapa en webbkorpus är inte bara mycket billigare, utan framför allt kan dess storlek till och med vara en storleksordning större än traditionell korpus [4] .
— Vladimir Benko ARANEA — EN FAMILJ PÅ MILJARDER WEBKÅRCorpus är huvudbegreppet och databasen för korpuslingvistik. Analysen och bearbetningen av olika typer av korpus är föremål för de flesta arbeten inom beräkningslingvistik (t.ex. nyckelordsextraktion ), taligenkänning och maskinöversättning , där korpus ofta används för att skapa dolda Markov -modeller för ordordstaggning och andra uppgifter. Företags- och frekvensordböcker kan vara användbara vid undervisning i främmande språk.
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |