Ryska nationalkorpus

Ryska nationalkorpus
URL	ruscorpora.ru
Kommersiell	Nej
Webbplatstyp	pedagogiskt/vetenskapligt projekt
Registrering	ja : krävs för att komma åt texterna; licensavtal
Språk)	ryska / engelska
Serverns plats	Ryssland
Ägare	Institutet för det ryska språket uppkallat efter V. V. Vinogradov RAS
Början av arbetet	2003
Nuvarande status	fungerar och utvecklas

National Corpus of the Russian Language (NCRL) är en sökbar elektronisk onlinekorpus av ryska texter. Öppnade 29 april 2004 . Den historiska korpusen av kyrkoslaviska, fornryska (XI-XIV århundraden) och centralryska (XV-tidiga XVIII århundraden) texter är också tillgängliga för sökning.

Kompilatorer

Arbetet med att skapa korpusen startades 2001 av en grupp filologer från Moskva , St. Petersburg , Voronezh och andra städer.

Följande organisationer deltar i programmet för skapandet av National Corpus of the Russian Language [1] :

Institutet för det ryska språket uppkallat efter V. V. Vinogradov RAS (IRL RAS).
Institutet för lingvistik RAS (ILS RAS).
Institutet för informationsöverföringsproblem uppkallat efter A. A. Kharkevich RAS (IITP RAS).
Institutet för språkstudier vid Ryska vetenskapsakademin (IL RAS) i St. Petersburg (tillsammans med St. Petersburg State University (SPbGU)).
Voronezh State University [2] .

Kårens sammansättning

Korpusen omfattar både skrivna texter (skönlitteratur, memoarer, journalistik, vetenskaplig, religiös litteratur, vardagliga trycksaker) och uppteckningar av muntliga texter (offentliga tal och privata samtal).

Korpusen innehåller också underkorpuser av poetiska och dialektala texter, korpus av parallella texter (korpus parallella med ryska finns tillgängliga för följande språk: engelska, armeniska, vitryska, bulgariska, buryat, spanska, italienska, kinesiska, lettiska, tyska, polska , ukrainska, franska, svenska, estniska och flerspråkiga), en separat tidningskorpus (mediematerial från början av 2000-talet), kyrkoslavisk korpus (liturgiska texter, moderna (XIX-XX århundraden) och tidigare perioder), historiska (inklusive Gamla ryska, gamla ryska, björkbark bokstäver), syntaktiska, accentologiska, multimedia och undervisning subkorpuser.

Sedan 2010, som en del av den historiska underkorpusen av National Corpus of the Russian Language, har en textkorpus av björkbarkbokstäver med fullständig morfologisk markering funnits tillgänglig. Texterna av björkbarkbokstäver som en del av korpusen är interaktivt länkade till deras presentation på webbplatsen gramoty.ru [3] .

Skrovvolym

Volymen av huvudkorpusen i juni 2022 var 375 miljoner ordanvändningar, och den totala volymen korpus överstiger 1,5 miljarder ordanvändningar [4] .

Texter är försedda med metamarkering (efter skapandedatum, författare, genre etc.); ordformer i texter är utrustade med automatisk morfologisk och semantisk markering; parallella texter är justerade; även den poetiska korpusens texter är försedda med speciella metriska markeringar.

1,5 % av texterna är försedda med morfologisk [5] och semantisk [6] markering med manuellt borttagen homonymi ("disambiguated subcorpus").

Ram	Antal texter	Antal erbjudanden	Antal ordanvändningar	% av ordanvändningen
Dezambiguirovannaya del av kroppen	2 tusen	500 tusen	6 miljoner	1,6 %
Huvudbyggnad	84 tusen	19,1 miljoner	209 miljoner	57,3 %
Hela kroppen	342 tusen	32 miljoner	364 miljoner	100 %

Åtkomst

För närvarande är endast korpussökning gratis och gratis . Korpuswebbplatsen och dess sökning underhålls av Yandex- företaget, vars anställda också deltog i utvecklingen av korpusmjukvaran. Tillgång till hela korpusen (kopiering och överföring av dess databas) är förbjuden enligt licensavtalet. För att få tillgång till 1/6 av den markerade delen av subkorpusen måste du registrera dig och acceptera licensavtalet [7] . Problemet med åtkomstbegränsning är tänkt att lösas av Open Corpus-projektet, som också skapar en korpus av det ryska språket, men under en fri licens [8] .

Se även

Anteckningar

↑ Projektdeltagare . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 8 mars 2018. (obestämd)
↑ Om projektet. Parallella korpuser av skrivna texter . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 8 mars 2018. (obestämd)
↑ Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod bokstäver på björkbark (från utgrävningar 2001-2014) Arkivkopia daterad 27 mars 2019 på Wayback Machine . Volym XII. - M .: Languages of Slavic culture, 2015. - 288 s.
↑ Nationell korpus av det ryska språket . ruscorpora.ru. Hämtad 7 mars 2018. Arkiverad från originalet 7 oktober 2011. (obestämd)
↑ Morfologi . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 19 februari 2018. (obestämd)
↑ Semantik . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 19 februari 2018. (obestämd)
↑ Användning av kroppen. Licensavtal . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 8 mars 2018. (obestämd)
↑ OpenCorpora: öppen korpus av det ryska språket . opencorpora.org . Hämtad 26 januari 2022. Arkiverad från originalet 26 januari 2022. (obestämd)

Litteratur

National Corpus of the Russian Language: 2003-2005. Samling av artiklar / Otv. ed. V.A. Plungyan . — M .: Indrik , 2005. — 502 sid. — ISBN ISBN 5-85759-358-1 .
National Corpus of the Russian Language: 2006-2008. Nya resultat och framtidsutsikter / Ed. ed. V.A. Plungyan . - St Petersburg. : Nestor-History, 2009. - 502 sid. — ISBN ISBN 978-5-98187-327-0 .
Plungyan V. A. Varför skapar vi det ryska språkets nationella korpus? // Inrikes sedlar . - 2005. - Nr 2 (23) .

Länkar

Officiell sida

Korpuslingvistik
engelska korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language brittiska nationella kåren Brun Corpus Buckeye Corpus Cambridge English Corpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Bank Talat engelska korpus TID VerbNet Wellington Corpus of Spoken New Zealand English
Ryskspråkiga korpus	Allmänt internetkorpus för det ryska språket Ryska nationalkorpus Öppen korpus av det ryska språket SinTagRus Tübingen Corpus of the Russian Language Uppsala korpus av ryska texter Helsingfors kommenterad korpus av det ryska språket
Corpora på andra språk	Bijankhan Corpus BARN Korpus av kroatiska Kroatiska nationella korpus Europarl Corpus Mannheim Corpus tyska Hamshahri Corps Polsk National Corpus Neo-assyriska textkorpusprojekt Koranens korpus Scottish National Corpus Sloveniens nationella korpus samtalsbank Tatoeba Teheran Monolingual Corpus Textaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGA