Korpuslingvistik

Korpus [1] lingvistik är en gren av lingvistik som handlar om utveckling, skapande och användning av textkorpus . Begreppet introducerades på 1960 -talet i samband med utvecklingen av praxis att skapa ärenden, som sedan 1980 -talet underlättades av utvecklingen av datateknik.

En språklig eller språklig korpus av texter är ett stort, maskinläsbart format, enhetligt, strukturerat, markerat, filologiskt kompetent utbud av språkliga data, utformade för att lösa specifika språkliga problem [2] . Huvuddragen i den moderna korpusen är ett maskinläsbart format, representativitet och förekomsten av metallspråklig information [2] . Representativitet uppnås genom ett särskilt förfarande för urval av texter.

En språklig korpus är en samling texter insamlade enligt vissa principer, uppmärkta enligt en viss standard och försedda med en specialiserad sökmotor . . Ibland kallas en korpus ("korpus av första ordningen") helt enkelt vilken samling av texter som helst som förenas av något gemensamt drag (språk, genre , författare, period då texter skapades).

Lämpligheten att skapa textkorpus förklaras av:

presentation av språkliga data i ett verkligt sammanhang;
tillräckligt stor representativitet av data (med en stor volym av kroppen);
möjligheten till multipelanvändning av en en gång skapad korpus för att lösa olika språkliga problem, såsom till exempel implementering av grafematisk och lexikogrammatisk textanalys, etc. [3]

Historik

Brown Corpus (BK, English Brown Corpus , BC), som skapades på 1960 -talet vid Brown University och innehöll 500 fragment av texter på 2 tusen ord vardera, som publicerades på engelska i USA 1961. Som ett resultat satte han standarden på 1 miljon ordanvändningar för att skapa representativa korpus på andra språk. Enligt en modell nära BK skapades på 1970-talet en frekvensordbok för det ryska språket Zasorina , byggd på en korpus av texter med en volym på även 1 miljon ord och innefattande ungefär lika stora andelar sociopolitiska texter , skönlitteratur, naturvetenskapliga och populärvetenskapliga texter från olika områden och dramaturgi. Den ryska kåren, som skapades på 1980 -talet vid Uppsala universitet , byggdes också efter en liknande modell.

En storlek på en miljon ord är tillräcklig för en lexikografisk beskrivning av endast de vanligaste orden, eftersom ord och grammatiska konstruktioner med medelfrekvens förekommer flera gånger per miljon ord (ur en statistisk synvinkel är ett språk en stor uppsättning sällsynta händelser ). Så, vart och ett av sådana vanliga ord som engelska. artig (artig) eller eng. solsken (solsken) förekommer i f.Kr. endast 7 gånger, uttrycket är engelska. artigt brev bara en gång, och så stabila uttryck som engelska. artigt samtal, leende, begäran - aldrig.

Av dessa skäl, och i samband med framväxten av datorkraft som kan arbeta med stora volymer texter, gjordes flera försök runt om i världen på 1980 -talet att skapa större korpus. I Storbritannien var sådana projekt Bank of English (Bank of English) vid University of Birmingham och British National Corpus ( British National Corpus , BNC). I Sovjetunionen var ett sådant projekt Machine Fund of the Russian Language , skapad på initiativ av A. P. Ershov .

Nuvarande tillstånd

Närvaron av ett stort antal texter i elektronisk form underlättade avsevärt uppgiften att skapa stora representativa korpus av tiotals och hundratals miljoner ord, men eliminerade inte problemen: samla in tusentals texter, ta bort upphovsrättsproblem, föra alla texter till en singelform, att balansera korpusen efter ämne och genre tar mycket tid i anspråk. Representativa korpus finns (eller håller på att utvecklas) för tyska, polska, tjeckiska, slovenska, finska, moderngrekiska, armeniska, kinesiska, japanska, bulgariska och andra språk.

National Corpus of the Russian Language , skapad vid Ryska vetenskapsakademin , innehåller för närvarande mer än 500 miljoner ordanvändningar [4] .

Tillsammans med representativa korpus som täcker ett brett spektrum av genrer och funktionella stilar, används opportunistiska samlingar av texter ofta i språkforskning, såsom tidningar (ofta The Wall Street Journal och The New York Times ), nyhetsflöden ( Reuters ), samlingar av skönlitteratur ( Maxim Moshkovs bibliotek eller Project Gutenberg ).

Problem

Representativitetsproblemet

Korpusen består av ett ändligt antal texter, men den är utformad för att adekvat återspegla de lexikogrammatiska fenomen som är typiska för hela volymen av texter på motsvarande språk (eller underspråk ). För representativiteten är både ärendets storlek och struktur viktiga. Den representativa storleken beror på uppgiften, eftersom den bestäms av hur många exempel som kan hittas för de fenomen som studeras. På grund av att språket ur statistisk synpunkt innehåller ett stort antal relativt sällsynta ord ( Zipfs lag ), för att studera de första fem tusen vanligaste orden (till exempel förlust, ursäkta ), en korpus på ca. Det krävs 10-20 miljoner ordanvändningar, medan hur man beskriver de första tjugo tusen orden ( opretentiöst, hjärtslag, svärm ) redan kräver en korpus på över hundra miljoner ordanvändningar.

Uppmärkningsproblemet

Den primära uppmärkningen av texter inkluderar de steg som krävs för varje korpus:

tokenization (delad i stavningsord)
lemmatisering (att föra ordformer till ordboksform)
morfologisk analys

Presentationsproblem

I stora korpus uppstår ett problem som tidigare var irrelevant: en frågesökning kan ge hundratals och till och med tusentals resultat (användningssammanhang), som helt enkelt är fysiskt omöjliga att se på en begränsad tid. För att lösa detta problem utvecklas system som gör det möjligt att gruppera sökresultat och automatiskt dela upp dem i delmängder ( sökresultatklustring ), eller som ger ut de mest stabila fraserna ( samlokaliseringar ) med en statistisk bedömning av deras signifikans.

Webben som en korpus

Användning av sökmotorer

Många texter som finns tillgängliga på Internet kan användas som en korpus (det vill säga miljarder ordanvändningar för de viktigaste världsspråken). För lingvister är det vanligaste sättet att arbeta med Internet att göra frågor till en sökmotor och tolka resultaten antingen utifrån antalet sidor som hittats eller genom de första länkarna som returneras. Denna metod kallas Googleologi [5] . Det bör noteras att detta tillvägagångssätt är lämpligt för att lösa en begränsad klass av problem, eftersom textmarkeringsverktygen som används på webben inte beskriver ett antal språkliga egenskaper hos texten (som indikerar betoningar , grammatiska klasser, frasgränser , etc.) . Dessutom kompliceras saken av den låga förekomsten av semantisk layout .

I praktiken leder begränsningarna för detta tillvägagångssätt till att det är lättast att kontrollera till exempel kompatibiliteten för två ord genom en fråga som "ord1 ord2". Utifrån erhållna resultat kan man bedöma hur vanlig denna kombination är och i vilka texter den är vanligare. Se även frågestatistik .

Använda webbsidor

Det andra sättet är att automatiskt extrahera ett stort antal sidor från Internet och sedan använda dem som en vanlig korpus, vilket gör det möjligt att markera det och använda språkliga parametrar i frågor. Denna metod gör att du snabbt kan skapa en representativ korpus för alla språk som är tillräckligt representerade på Internet, men dess genre och tematiska mångfald kommer att spegla internetanvändarnas intressen [6] .

Användningen av Wikipedia som en samling texter vinner mer och mer popularitet i det vetenskapliga samfundet [7] .

Tatoeba-projektet

2006 dök webbplatsen Tatoeba (Tatoeba) upp, som låter dig fritt lägga till nya och ändra befintliga meningar på olika språk, relaterade till betydelse. Den baserades endast på den anglo-japanska korpusen, och redan nu överstiger antalet språk 80, och antalet meningar är 600 000 [8] . Vem som helst kan lägga till nya meningar och deras översättningar, och vid behov ladda ner hela eller delar av alla språkkorpus gratis.

Russian Open Corpus

Av intresse är projektet med den öppna korpusen av det ryska språket , som inte bara använder texter publicerade under fria licenser, utan också tillåter alla som vill delta i den språkliga uppmärkningen av korpusen. Denna form av crowdsourcing möjliggörs genom att dela upp markeringsuppgiften i små uppgifter, varav de flesta kan hanteras av en person utan särskild språklig utbildning [9] . Korpusen uppdateras ständigt, all text och programvara som är relaterade till den är tillgänglig under GNU GPL v2 och CC-BY-SA-licenserna .

Se även

Anteckningar

↑ Det finns betoningar på både första och näst sista stavelsen. "... adjektivet bör uttalas med betoningen på den första stavelsen -" corps "(Big Explanatory Dictionary of the Russian Language, St. Petersburg, 1998). Samtidigt vittnar en analys av användningen av specialister hittills till förmån för formerna "kår", "kår", "kår", som ofta används, så att vi tydligen med försiktighet kan säga att för närvarande denna fråga förblir öppen. Det finns inga regler som reglerar användningen av en eller annan form i förhållande till korpuslingvistik, även om det verkar som att varianten "korpuser" borde vinna, eftersom den skiljer ordets terminologiska betydelse från dess vanliga betydelse. I läroboken kommer författarna att använda detta alternativ. Zakharov V.P., Bogdanova S.Yu. Corpus linguistics Arkiverad 3 juli 2019 på Wayback Machine . St Petersburg, 2013
↑ 1 2 Zakharov, Bogdanova, 2013 , sid. 5.
↑ Dovnar P.Yu., Vorontsov A.V. Språklig processor av det kinesiska språket. Utvecklingsfunktioner // International Congress on Informatics: Information Systems and Technologies: Proceedings of the International Scientific Congress 31 okt. – 3 nov. 2011 - Minsk: BGU: BGU, 2011. (ryska)
↑ Statistik. Nationella korpus av det ryska språket . www.ruscorpora.ru Hämtad 27 december 2019. Arkiverad från originalet 29 december 2019. (obestämd)
↑ Kilgarriff A. Googleologi är dålig vetenskap. Arkiverad 8 september 2008 på Wayback Machine Computational Linguistics, , 33(1), 2007.
↑ Baroni M. och Bernardini S. (redaktörer). Knäpp! Arbetsdokument på webben som Corpus. Arkiverad 31 mars 2022 på Wayback Machine Gedit, Bologna, 2006.
↑ Se verk: Wikipedia i akademiska studier
↑ Lista över förslag efter språk . Datum för åtkomst: 16 december 2010. Arkiverad från originalet den 11 mars 2011. (obestämd)
↑ Bocharov V.V., Granovsky D.V. Programvara för kollektivt arbete med den morfologiska markeringen av korpusen // Proceedings of the international conference "Corpus Linguistics - 2011". - St. Petersburg: St. Petersburg: St. Petersburg State University. Universitetet, Filologiska fakulteten, 2011. (ryska)

Litteratur

Zakharov V.P., Bogdanova S.Yu. Korpuslingvistik: En lärobok för studenter i riktningen "Lingvistik" . - 2:a uppl., reviderad. och ytterligare - St Petersburg. : St Petersburg State University . RIO. Filologiska fakulteten ., 2013. - 148 sid.

Länkar

Korpuslingvistik lärobok [1]
Ryska nationalkorpus
Öppen korpus av det ryska språket
Webbplats för seminariet om korpus och beräkningslingvistik som hölls vid Institutet för språkstudier vid den ryska vetenskapsakademin
Corpus samling på corpus.leeds.ac.uk
Corpus Collections på David Lees hemsida
Uppsala kår
HANKO Corps: sökformulär
Specialintressegrupp på webben som Corpus
Corpora -Lists e-postlistarkiv
Tatoeba Projects webbplats
Märkt samlingar för uppgiften att extrahera information (på webbplatsen för forskningscentret för artificiell intelligens)

Korpuslingvistik
engelska korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language brittiska nationella kåren Brun Corpus Buckeye Corpus Cambridge English Corpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Bank Talat engelska korpus TID VerbNet Wellington Corpus of Spoken New Zealand English
Ryskspråkiga korpus	Allmänt internetkorpus för det ryska språket Ryska nationalkorpus Öppen korpus av det ryska språket SinTagRus Tübingen Corpus of the Russian Language Uppsala korpus av ryska texter Helsingfors kommenterad korpus av det ryska språket
Corpora på andra språk	Bijankhan Corpus BARN Korpus av kroatiska Kroatiska nationella korpus Europarl Corpus Mannheim Corpus tyska Hamshahri Corps Polsk National Corpus Neo-assyriska textkorpusprojekt Koranens korpus Scottish National Corpus Sloveniens nationella korpus samtalsbank Tatoeba Teheran Monolingual Corpus Textaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGA