Ryska nationalkorpus | |
---|---|
URL | ruscorpora.ru |
Kommersiell | Nej |
Webbplatstyp | pedagogiskt/vetenskapligt projekt |
Registrering | ja : krävs för att komma åt texterna; licensavtal |
Språk) | ryska / engelska |
Serverns plats | Ryssland |
Ägare | Institutet för det ryska språket uppkallat efter V. V. Vinogradov RAS |
Början av arbetet | 2003 |
Nuvarande status | fungerar och utvecklas |
National Corpus of the Russian Language (NCRL) är en sökbar elektronisk onlinekorpus av ryska texter. Öppnade 29 april 2004 . Den historiska korpusen av kyrkoslaviska, fornryska (XI-XIV århundraden) och centralryska (XV-tidiga XVIII århundraden) texter är också tillgängliga för sökning.
Arbetet med att skapa korpusen startades 2001 av en grupp filologer från Moskva , St. Petersburg , Voronezh och andra städer.
Följande organisationer deltar i programmet för skapandet av National Corpus of the Russian Language [1] :
Korpusen omfattar både skrivna texter (skönlitteratur, memoarer, journalistik, vetenskaplig, religiös litteratur, vardagliga trycksaker) och uppteckningar av muntliga texter (offentliga tal och privata samtal).
Korpusen innehåller också underkorpuser av poetiska och dialektala texter, korpus av parallella texter (korpus parallella med ryska finns tillgängliga för följande språk: engelska, armeniska, vitryska, bulgariska, buryat, spanska, italienska, kinesiska, lettiska, tyska, polska , ukrainska, franska, svenska, estniska och flerspråkiga), en separat tidningskorpus (mediematerial från början av 2000-talet), kyrkoslavisk korpus (liturgiska texter, moderna (XIX-XX århundraden) och tidigare perioder), historiska (inklusive Gamla ryska, gamla ryska, björkbark bokstäver), syntaktiska, accentologiska, multimedia och undervisning subkorpuser.
Sedan 2010, som en del av den historiska underkorpusen av National Corpus of the Russian Language, har en textkorpus av björkbarkbokstäver med fullständig morfologisk markering funnits tillgänglig. Texterna av björkbarkbokstäver som en del av korpusen är interaktivt länkade till deras presentation på webbplatsen gramoty.ru [3] .
Volymen av huvudkorpusen i juni 2022 var 375 miljoner ordanvändningar, och den totala volymen korpus överstiger 1,5 miljarder ordanvändningar [4] .
Texter är försedda med metamarkering (efter skapandedatum, författare, genre etc.); ordformer i texter är utrustade med automatisk morfologisk och semantisk markering; parallella texter är justerade; även den poetiska korpusens texter är försedda med speciella metriska markeringar.
1,5 % av texterna är försedda med morfologisk [5] och semantisk [6] markering med manuellt borttagen homonymi ("disambiguated subcorpus").
Ram | Antal texter | Antal erbjudanden | Antal ordanvändningar | % av ordanvändningen |
---|---|---|---|---|
Dezambiguirovannaya del av kroppen | 2 tusen | 500 tusen | 6 miljoner | 1,6 % |
Huvudbyggnad | 84 tusen | 19,1 miljoner | 209 miljoner | 57,3 % |
Hela kroppen | 342 tusen | 32 miljoner | 364 miljoner | 100 % |
För närvarande är endast korpussökning gratis och gratis . Korpuswebbplatsen och dess sökning underhålls av Yandex- företaget, vars anställda också deltog i utvecklingen av korpusmjukvaran. Tillgång till hela korpusen (kopiering och överföring av dess databas) är förbjuden enligt licensavtalet. För att få tillgång till 1/6 av den markerade delen av subkorpusen måste du registrera dig och acceptera licensavtalet [7] . Problemet med åtkomstbegränsning är tänkt att lösas av Open Corpus-projektet, som också skapar en korpus av det ryska språket, men under en fri licens [8] .
Korpuslingvistik | |
---|---|
engelska korpus |
|
Ryskspråkiga korpus |
|
Corpora på andra språk |
|
Organisationer |