Korpus av texter

Inom lingvistik är en korpus (i denna mening är plural corpus , inte corpus [1] ) en uppsättning texter utvalda och bearbetade enligt vissa regler, som används som grund för att studera ett språk. De används för statistisk analys och statistisk hypotestestning , för att validera språkliga regler på ett visst språk. Textkorpusen är ämne för studier i korpuslingvistik .

Grundläggande egenskaper för skrovet

Bland de många definitionerna av korpusen kan dess huvudsakliga egenskaper särskiljas :

Fallklassificering

Corpora kan klassificeras enligt olika kriterier: syftet med att skapa korpusen, typen av språkdata, "litterär", genre, dynamik, typ av uppmärkning, volym av texter och så vidare. Enligt kriteriet parallellism kan till exempel korpora delas in i enspråkig, tvåspråkig och flerspråkig. Flerspråkiga och tvåspråkiga är indelade i två typer:

  1. parallell  - en uppsättning texter och deras översättningar till ett eller flera språk.
  2. jämförbar (pseudo-parallell) - originaltexter på två eller flera språk.

Skrovmarkeringar

Markeringen består i att tillskriva speciella taggar till texter och deras komponenter : språkliga och externa (extralinguistiska). Följande språkliga typer av uppmärkning särskiljs: morfologisk, semantisk, syntaktisk, anaforisk, prosodisk, diskurs, etc. Ytterligare strukturella analysnivåer tillämpas på vissa korpus. I synnerhet kan vissa små korpus vara helt syntaktisk märkta. Sådana korpus brukar kallas djupt kommenterade eller syntaktiska korpus , och själva den syntaktiska strukturen är ett beroendeträd .

Manuell uppmärkning (annotering) av texter är en dyr och tidskrävande uppgift. För tillfället presenteras olika mjukvaruverktyg för att markera korpora i det offentliga området [3] . Konventionellt kan de delas in i separata (fristående) och webborienterade (webbaserade) . Samtidigt har utvecklarnas fokus under de senaste åren flyttats mot webbapplikationer. Dessa system har ett antal fördelar:

Internet som en korpus

Modern teknik gör det möjligt att skapa "webcorpora", det vill säga korpor erhållna genom att bearbeta internetkällor:

En webbkorpus är en speciell typ av språklig korpus, som skapas genom att gradvis ladda ner texter från Internet med hjälp av automatiserade procedurer som bestämmer språket och kodningen av enskilda webbsidor i farten, tar bort mallar, navigeringselement, länkar och annonser (den så kallad boilerplate), utföra transformation till text, filtrering, normalisering och deduplicering av de mottagna dokumenten, som sedan kan bearbetas med traditionella verktyg för korpuslingvistik (tokenisering, mirfosyntaktisk och syntaktisk annotering) och implementeras i ett sökkorpussystem. Att skapa en webbkorpus är inte bara mycket billigare, utan framför allt kan dess storlek till och med vara en storleksordning större än traditionell korpus [4] .

— Vladimir Benko ARANEA — EN FAMILJ PÅ MILJARDER WEBKÅR

Applikation

Corpus är huvudbegreppet och databasen för korpuslingvistik. Analysen och bearbetningen av olika typer av korpus är föremål för de flesta arbeten inom beräkningslingvistik (t.ex. nyckelordsextraktion ), taligenkänning och maskinöversättning , där korpus ofta används för att skapa dolda Markov -modeller för ordordstaggning och andra uppgifter. Företags- och frekvensordböcker kan vara användbara vid undervisning i främmande språk.

Ryska textkorpora

Se även

Anteckningar

  1. GRAMOTA.RU - referens och information Internetportal "ryska språket" | Ordböcker | Ordkontroll . gramota.ru. Hämtad 26 december 2019. Arkiverad från originalet 17 september 2019.
  2. Diagrammet skapades baserat på materialet i boken "Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: textbook. 3rd ed., revided - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 sid. "
  3. Vanyushkin, Grasjtjenko, 2017 .
  4. ARANEA: EN FAMILJ AV MILJARDER WEBCASES - The Written Heritage Community . textualheritage.org. Hämtad 26 december 2019. Arkiverad från originalet 9 augusti 2020.
  5. Glazkova, A. (2018), Automatisk sökning efter fragment som innehåller biografisk information i naturlig språktext , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text > 
  6. Rubtsova, Y. (2015), Att bygga en textkorpus för att sätta upp en tonklassificerare , Mjukvaruprodukter och system T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Arkiverad 7 augusti 2020 på Wayback Machine 

Litteratur