Korpus av texter

Inom lingvistik är en korpus (i denna mening är plural corpus , inte corpus [1] ) en uppsättning texter utvalda och bearbetade enligt vissa regler, som används som grund för att studera ett språk. De används för statistisk analys och statistisk hypotestestning , för att validera språkliga regler på ett visst språk. Textkorpusen är ämne för studier i korpuslingvistik .

Grundläggande egenskaper för skrovet

Bland de många definitionerna av korpusen kan dess huvudsakliga egenskaper särskiljas :

elektronisk - i modern mening måste korpusen vara i elektronisk form
representativ - ska väl "representera" objektet som modellerar
uppmärkt - den största skillnaden mellan en korpus och en textsamling
pragmatiskt orienterad - bör skapas för en specifik uppgift

Fallklassificering

Corpora kan klassificeras enligt olika kriterier: syftet med att skapa korpusen, typen av språkdata, "litterär", genre, dynamik, typ av uppmärkning, volym av texter och så vidare. Enligt kriteriet parallellism kan till exempel korpora delas in i enspråkig, tvåspråkig och flerspråkig. Flerspråkiga och tvåspråkiga är indelade i två typer:

parallell - en uppsättning texter och deras översättningar till ett eller flera språk.
jämförbar (pseudo-parallell) - originaltexter på två eller flera språk.

Skrovmarkeringar

Markeringen består i att tillskriva speciella taggar till texter och deras komponenter : språkliga och externa (extralinguistiska). Följande språkliga typer av uppmärkning särskiljs: morfologisk, semantisk, syntaktisk, anaforisk, prosodisk, diskurs, etc. Ytterligare strukturella analysnivåer tillämpas på vissa korpus. I synnerhet kan vissa små korpus vara helt syntaktisk märkta. Sådana korpus brukar kallas djupt kommenterade eller syntaktiska korpus , och själva den syntaktiska strukturen är ett beroendeträd .

Manuell uppmärkning (annotering) av texter är en dyr och tidskrävande uppgift. För tillfället presenteras olika mjukvaruverktyg för att markera korpora i det offentliga området [3] . Konventionellt kan de delas in i separata (fristående) och webborienterade (webbaserade) . Samtidigt har utvecklarnas fokus under de senaste åren flyttats mot webbapplikationer. Dessa system har ett antal fördelar:

möjligheten att markera ett dokument av flera personer samtidigt
kräver inte installation av ytterligare programvara förutom en webbläsare
flexibel differentiering av åtkomsträttigheter
visar det aktuella förloppet för uppmärkningsprocessen
möjligheten att modifiera den markerade kroppen

Internet som en korpus

Modern teknik gör det möjligt att skapa "webcorpora", det vill säga korpor erhållna genom att bearbeta internetkällor:

En webbkorpus är en speciell typ av språklig korpus, som skapas genom att gradvis ladda ner texter från Internet med hjälp av automatiserade procedurer som bestämmer språket och kodningen av enskilda webbsidor i farten, tar bort mallar, navigeringselement, länkar och annonser (den så kallad boilerplate), utföra transformation till text, filtrering, normalisering och deduplicering av de mottagna dokumenten, som sedan kan bearbetas med traditionella verktyg för korpuslingvistik (tokenisering, mirfosyntaktisk och syntaktisk annotering) och implementeras i ett sökkorpussystem. Att skapa en webbkorpus är inte bara mycket billigare, utan framför allt kan dess storlek till och med vara en storleksordning större än traditionell korpus [4] .

— Vladimir Benko ARANEA — EN FAMILJ PÅ MILJARDER WEBKÅR

Applikation

Corpus är huvudbegreppet och databasen för korpuslingvistik. Analysen och bearbetningen av olika typer av korpus är föremål för de flesta arbeten inom beräkningslingvistik (t.ex. nyckelordsextraktion ), taligenkänning och maskinöversättning , där korpus ofta används för att skapa dolda Markov -modeller för ordordstaggning och andra uppgifter. Företags- och frekvensordböcker kan vara användbara vid undervisning i främmande språk.

Ryska textkorpora

Se även

Anteckningar

↑ GRAMOTA.RU - referens och information Internetportal "ryska språket" | Ordböcker | Ordkontroll . gramota.ru. Hämtad 26 december 2019. Arkiverad från originalet 17 september 2019. (obestämd)
↑ Diagrammet skapades baserat på materialet i boken "Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: textbook. 3rd ed., revided - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 sid. "
↑ Vanyushkin, Grasjtjenko, 2017 .
↑ ARANEA: EN FAMILJ AV MILJARDER WEBCASES - The Written Heritage Community . textualheritage.org. Hämtad 26 december 2019. Arkiverad från originalet 9 augusti 2020. (obestämd)
↑ Glazkova, A. (2018), Automatisk sökning efter fragment som innehåller biografisk information i naturlig språktext , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text >
↑ Rubtsova, Y. (2015), Att bygga en textkorpus för att sätta upp en tonklassificerare , Mjukvaruprodukter och system T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Arkiverad 7 augusti 2020 på Wayback Machine

Litteratur

Vanyushkin A.S., Grashchenko L.A. Uppskattning av nyckelordsextraktionsalgoritmer: verktyg och resurser // Ny informationsteknologi i automatiserade system. - 2017. - Utgåva. 20 . — ISSN 2227-0973 .
Nikolaev I. S., Mitrenina O. V., Lando T. M. Tillämpad och beräkningslingvistik. - M. : URSS, 2016. - 320 sid.

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur