Ryska nationalkorpus

Ryska nationalkorpus
URL ruscorpora.ru
Kommersiell Nej
Webbplatstyp pedagogiskt/vetenskapligt projekt
Registrering ja : krävs för att komma åt texterna; licensavtal
Språk) ryska / engelska
Serverns plats Ryssland
Ägare Institutet för det ryska språket uppkallat efter V. V. Vinogradov RAS
Början av arbetet 2003
Nuvarande status fungerar och utvecklas

National Corpus of the Russian Language (NCRL)  är en sökbar elektronisk onlinekorpus av ryska texter. Öppnade 29 april 2004 . Den historiska korpusen av kyrkoslaviska, fornryska (XI-XIV århundraden) och centralryska (XV-tidiga XVIII århundraden) texter är också tillgängliga för sökning.

Kompilatorer

Arbetet med att skapa korpusen startades 2001 av en grupp filologer från Moskva , St. Petersburg , Voronezh och andra städer.

Följande organisationer deltar i programmet för skapandet av National Corpus of the Russian Language [1] :

Kårens sammansättning

Korpusen omfattar både skrivna texter (skönlitteratur, memoarer, journalistik, vetenskaplig, religiös litteratur, vardagliga trycksaker) och uppteckningar av muntliga texter (offentliga tal och privata samtal).

Korpusen innehåller också underkorpuser av poetiska och dialektala texter, korpus av parallella texter (korpus parallella med ryska finns tillgängliga för följande språk: engelska, armeniska, vitryska, bulgariska, buryat, spanska, italienska, kinesiska, lettiska, tyska, polska , ukrainska, franska, svenska, estniska och flerspråkiga), en separat tidningskorpus (mediematerial från början av 2000-talet), kyrkoslavisk korpus (liturgiska texter, moderna (XIX-XX århundraden) och tidigare perioder), historiska (inklusive Gamla ryska, gamla ryska, björkbark bokstäver), syntaktiska, accentologiska, multimedia och undervisning subkorpuser.

Sedan 2010, som en del av den historiska underkorpusen av National Corpus of the Russian Language, har en textkorpus av björkbarkbokstäver med fullständig morfologisk markering funnits tillgänglig. Texterna av björkbarkbokstäver som en del av korpusen är interaktivt länkade till deras presentation på webbplatsen gramoty.ru [3] .

Skrovvolym

Volymen av huvudkorpusen i juni 2022 var 375 miljoner ordanvändningar, och den totala volymen korpus överstiger 1,5 miljarder ordanvändningar [4] .

Texter är försedda med metamarkering (efter skapandedatum, författare, genre etc.); ordformer i texter är utrustade med automatisk morfologisk och semantisk markering; parallella texter är justerade; även den poetiska korpusens texter är försedda med speciella metriska markeringar.

1,5 % av texterna är försedda med morfologisk [5] och semantisk [6] markering med manuellt borttagen homonymi ("disambiguated subcorpus").

Ram Antal texter Antal erbjudanden Antal ordanvändningar % av ordanvändningen
Dezambiguirovannaya del av kroppen 2 tusen 500 tusen 6 miljoner 1,6 %
Huvudbyggnad 84 tusen 19,1 miljoner 209 miljoner 57,3 %
Hela kroppen 342 tusen 32 miljoner 364 miljoner 100 %

Åtkomst

För närvarande är endast korpussökning gratis och gratis . Korpuswebbplatsen och dess sökning underhålls av Yandex- företaget, vars anställda också deltog i utvecklingen av korpusmjukvaran. Tillgång till hela korpusen (kopiering och överföring av dess databas) är förbjuden enligt licensavtalet. För att få tillgång till 1/6 av den markerade delen av subkorpusen måste du registrera dig och acceptera licensavtalet [7] . Problemet med åtkomstbegränsning är tänkt att lösas av Open Corpus-projektet, som också skapar en korpus av det ryska språket, men under en fri licens [8] .

Se även

Anteckningar

  1. Projektdeltagare . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 8 mars 2018.
  2. Om projektet. Parallella korpuser av skrivna texter . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 8 mars 2018.
  3. Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod bokstäver på björkbark (från utgrävningar 2001-2014) Arkivkopia daterad 27 mars 2019 på Wayback Machine . Volym XII. - M .: Languages ​​of Slavic culture, 2015. - 288 s.
  4. Nationell korpus av det ryska språket . ruscorpora.ru. Hämtad 7 mars 2018. Arkiverad från originalet 7 oktober 2011.
  5. Morfologi . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 19 februari 2018.
  6. Semantik . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 19 februari 2018.
  7. Användning av kroppen. Licensavtal . Nationella korpus av det ryska språket . Hämtad 7 mars 2018. Arkiverad från originalet 8 mars 2018.
  8. OpenCorpora: öppen korpus av det ryska språket . opencorpora.org . Hämtad 26 januari 2022. Arkiverad från originalet 26 januari 2022.

Litteratur

Länkar