SinTagRus

SinTagRus
Fallvolym över 1,1 miljoner ord
Språk ryska
Grundläggande uppmärkningstyper morfologiska , syntaktiska , lexikosemantiska
Kompilatorer Laboratoriet för datorlingvistik IPTP RAS
datum för skapandet 1998
Tillgång fri
Licens Proprietär
Hemsida proling.iitp.ru/ru/proje...

SynTagRus ( eng.  SynTagRus , förkortning för engelska.  Syntactically Tagged Russian text corpus , "syntactically annotated corpus of Russian texts") är en djupt kommenterad korpus av ryska texter , den första korpusen av ryska texter med syntaktisk uppmärkning. Den har utvecklats sedan 1998 av Laboratory of Computational Linguistics vid IPTP RAS i samarbete med Sector of Theoretical Semantics i IRL RAS . Korpusen består av texter av olika genrer; det totala antalet ordanvändningar är mer än 1 miljon .

SynTagRus är baserad på ideologin för den flerfunktionella språkprocessorn ETAP . En egenskap hos korpusen är närvaron av flera nivåer av annotering av olika djup, inklusive fullständig morfologisk och syntaktisk markering med borttagen homonymi . Markup-språket är XML .

SynTagRus distribueras under en icke-kommersiell licens . Dessutom har korpusen konverterats till olika format; några av dessa versioner (eller omvandlare) är offentliga, och en begränsad version av den ursprungliga korpusen är en del av den ryska nationella korpusen .

Historik

Framväxten av syntaktiska uppmärkningskorpora i början av 1990 - talet resulterade i utvecklingen av empiriska metoder i naturliga språkbehandlingsproblem . Dessutom har användningen av sådana korpus funnit sin tillämpning inte bara i samband med själva syntaktisk analys, utan också i ett antal andra uppgifter, inklusive lexikal polysemiupplösning , semantisk analys , etc. [1]

I slutet av 1990-talet hade kommenterade korpus skapats för de flesta av de större europeiska språken , medan inga sådana korpus faktiskt existerade för det ryska språket [2] . Dessutom var inte ens de omärkta korporna som fanns vid den tiden (till exempel Uppsala Corpus of Russian Texts ) offentligt tillgängliga [3] .

Av dessa skäl började sedan 1998 [4] utvecklingen av den första kommenterade korpusen av det ryska språket SinTagRus [2] [5] , som senare blev standarden bland korpus med syntaktisk markering [6] . Samtidigt deltog utvecklarna också i skapandet av National Corpus of the Russian Language; i synnerhet SynTagRus (med vissa begränsningar) har varit en integrerad, men helt autonom del av NCRP sedan skapandet av den senare [7] [8] . I NKRY för SinTagRus (som en underkorpus) används också namnet "djupt kommenterad korpus" [9] .

Utvecklingen av SinTagRus utförs av Laboratory of Computational Linguistics av ​​IPTP RAS i samarbete med Sector of Theoretical Semantics av ​​IRL RAS [10] .

Kårens sammansättning

Källmaterialet för SinTagRus var Uppsala Corpus of Russian Texts : cirka 10 000 meningar hämtades från skönlitterära texter. Därefter lades korta (upp till 30 meningar) texter till korpusen, hämtade från webbplatserna för populära nyhetspublikationer ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus utvecklas ständigt och har från och med 2020 cirka 77 tusen meningar (mer än 1,1 miljoner ordanvändningar) [12] hämtade från texterna i följande genrer [13] [8] [14] :

Markeringstyper och format

En utmärkande egenskap hos SynTagRus jämfört med andra kommenterade korpus av det ryska språket är närvaron av flera nivåer av annotering av olika djup, som kan extraheras oberoende från korpusen, och antalet av dessa nivåer är potentiellt obegränsat. Korpusets märkningsspråk är XML , och märkningsformatet är kompatibelt med TEI formalism , med undantag för några extra introducerade element och attribut [2] . I princip görs fritextuppmärkning i två steg [11] :

  1. Preliminär uppmärkning av text i automatiskt läge med hjälp av den språkliga ETAP-processorn, som är en praktisk implementering av Meaning-Text-modellen .
  2. Kontrollera och vid behov korrigera uppmärkningen av en expert lingvist .

Följande kommer att lista de uppmärkningstyper som är tillgängliga i korpusen.

Dela upp texten i meningar och lexikala poster

Varje text i SinTagRus är uppdelad i meningar. Varje mening är ett element som heter S , och varje sådant element har ett ID- attribut vars värde är serienumret på meningen i texten. På liknande sätt är varje mening uppdelad i lexikaliska element med namnet W , och varje sådant element har ett ID- attribut , vars värde är ordningsnumret på ordet i denna mening [11] . Skiljetecken är formaterade som texten i satstaggen (bevarar deras relativa position i källtexten) och uttrycks inte av sina egna taggar [15] .

Morfologisk markering

Den morfologiska strukturen av en ordform är namnet på ett lexem , eller lemma , till vilket en del av talet och morfologiska egenskaper tillskrivs , det vill säga betydelsen av motsvarande morfologiska kategorier . För motsvarande ordform är lemma värdet av LEMMA- attributet och ordled och morfologiska egenskaper tillsammans är värdet av FEAT [8] [16] -attributet .

Beskrivning av morfologisk markering [17] Använda orddelar Använde morfologiska egenskaper

Syntaktisk uppmärkning

Den syntaktiska uppmärkningen av korpussatser utförs inom ramen för beroendegrammatik : den syntaktiska strukturen är ett orienterat träd , vars noder är ord, och varje kant är riktad från huvudordet till tjänarordet och motsvarar någon syntaktisk relation . Ordet som motsvarar trädets rot kallas toppen av meningen och är, till skillnad från resten av orden i meningen, inte syntaktisk beroende av någon annan. Syntaktiska grupper är ordnade i form av underträd till källträdet: i varje sådant underträd är en av medlemmarna i gruppen dess representant i yttre relationer och underordnar de återstående medlemmarna i gruppen [18] . Totalt urskiljs cirka 70 typer av syntaktiska relationer i SinTagRus [13] .

Använda syntaktiska relationer [17] Aktant syntaktiska relationer Attribuera syntaktiska relationer Koordinering av syntaktiska relationer Tjänstesyntaktiska relationer

För att registrera information om den syntaktiska strukturen för en mening i SynTagRus används två attribut för varje ord i meningen: DOM , vars värde är värdordets ID , och LINK , vars värde är namnet på motsvarande syntaktiska relation [16] . Den övre delen av meningen har specialvärdet för _root DOM - attributet [19] .

Lexiko-semantisk uppmärkning

Varje ordform, förutom lemma , tilldelas attributet KSNAME , vars värde är namnet på motsvarande post i den förklarande-kombinatoriska ordboken för den språkliga ETAP-processorn. På grund av detta specificeras å ena sidan betydelsen av polysemantiska och homonyma ord, och å andra sidan upprättas en koppling med posterna i ordboken, som används av ETAP-processorn, och informationen som finns i dessa poster om ordens semantiska egenskaper blir tillgängliga [10] .

Lexiko-funktionell uppmärkning

Meningar är markerade med fraser som kan tolkas i termer av lexikaliska funktioner . För att markera sådana fraser inuti meningen skapas ytterligare element separat från själva ordformerna [13] .

Mikrosyntaktisk uppmärkning

Mikrosyntaktiska enheter i SynTagRus förstås som fraseologiska enheter med syntaktisk specificitet [20] . Ett exempel är den sammansatta prepositionen som gäller . Å ena sidan är det syntaktisk nära primitiva prepositioner. Det är faktiskt omöjligt att infoga en pronomindefinition till ett substantiv mellan elementen i denna preposition, som i andra prepositionella konstruktioner av typen i formen , i kasus etc. Dessutom, om det personliga pronomenet för den tredje personen är subjekt till denna preposition i meningen, då i de flesta fall initialen n- , som i fallet med primitiva prepositioner. Å andra sidan kan den första delen av vissa parade konjunktioner , liksom partikeln om eller , lokaliseras mellan prepositionen i kraft och substantivet som beror på den, vilket gör det omöjligt att tillskriva denna preposition till primitiver [21] .

Om en mikrosyntaktisk enhet förekommer i någon mening i korpusen läggs ett nytt meningsattribut till - MICROSYNT , vars värde är namnet på motsvarande mikrosyntaktiska enhet och dess linjära gränser [20] .

Anaforisk uppmärkning

För ett anaforiskt pronomen som påträffas i texten anges dess antecedent , det vill säga uttrycket som detta pronomen syftar på. En mening där ett anaforiskt pronomen finns har ytterligare ett COREF- attribut vars värde är en lista över pronomen-föregående par som motsvarar det givna pronomenet. För varje anaforiskt pronomen anges dess linjära position i meningen, och för antecedenten anges dessutom i vilken mening i förhållande till den aktuella den finns (inom tre meningar i båda riktningarna) [4] .

Bearbetning av elliptiska strukturer

I SynTagRus återställs utelämnade fragment av elliptiska meningar explicit. Den motsvarande återställda ordformen markeras på samma sätt som andra ordformer; i synnerhet är alla nödvändiga syntaktiska länkar hämtade från sådana "fantom"-ord. Denna ordform tilldelas attributet NODETYPE med värdet FANTOM [2] [22] .

Använda kroppen

SynTagRus används inom olika områden. Å ena sidan bedrivs rent språklig forskning på dess grund, både teoretisk och praktisk (särskilt inom området lexikografi ). Å andra sidan finner korpusen sin tillämpning i beräkningslingvistikens uppgifter som en källa för språklig data, till exempel när man skapar parsers . Dessa uppgifter kan lösas med olika uppmärkningsformat. Samtidigt gör kombinationen av flera byggnader med olika markeringar till en den senare mer representativ. Dessa omständigheter leder till problemet med korpuskonvertering [4] .

Det har gjorts upprepade försök att översätta SynTagRus till andra uppmärkningsformat: experiment är kända för att konvertera korpusen till formaten HPSG och PDT [13] . Dessutom konverterades SynTagRus framgångsrikt till formaten CoNLL-U [22] , PTB [23] och SD [24] . Konverteringen gällde dock för det första i alla fall endast morfologiska och syntaktiska markeringar, och för det andra utfördes den automatiskt, vilket blev ett hinder för fullvärdig konvertering. Så t.ex. kunde NID inte entydigt översättas till formatet CoNLL-U (där det inte finns någon sådan del av tal) automatiskt, så alla SinTagRus-satser där minst en ordform hade en sådan en del av talet uteslöts från korpusen före konverteringen [22] .

Åtkomst

SynTagRus distribueras gratis under en icke-kommersiell licens [25] . Dessutom finns en version av korpusen utan vissa typer av uppmärkning tillgänglig för icke-kommersiellt bruk för forsknings- och undervisningsändamål som en underkorpus av det ryska språkets nationella korpus och är allmän egendom [13] , såväl som versioner i CoNLL-U -format (licens CC BY-NC-SA 4.0 ) [22] och PTB (endast omvandlare tillgänglig) [23] .

Anteckningar

  1. Eric Brill , Raymond J. Mooney. En översikt över empirisk bearbetning av naturligt språk  //  AI Magazine. - AAAI, 1997. - Vol. 18 , nr. 4 . - S. 13-24 .
  2. 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. En kommenterad korpus av ryska texter: koncept, uppmärkningsverktyg, typer av information  // Proceedings Internationellt seminarium om beräkningsspråk och dess tillämpningsspråk-20o ". - Protvino, 2000. Arkiverad den 31 juli 2019.
  3. Reznikova T. I. , Kopotev M. V. Språkligt kommenterade korpus av det ryska språket (granskning av offentliga resurser)  // National Corpus of the Russian Language: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Arkiverad från originalet den 31 juli 2019.
  4. 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus today  // Proceedings of the Institute of the Russian Language. V. V. Vinogradova. - M . : "Nestor-History", 2019. - Issue. 21 . - S. 14-40 . Arkiverad 26 mars 2020.
  5. Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Utveckling av en parserkärna för det ryska språket baserad på NLTK-bibliotek  // Proceedings of the United Scientific Conference "Internet and Modern Society". - 2016. - S. 44-54 . Arkiverad från originalet den 10 oktober 2019.
  6. Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., Sekerina I. , Nikolaeva Yu. V., Daniel' M. A. B. Bergel O. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I. , Krivnova O. F. Corpus linguistics // Introduktion till språkvetenskapen / ed. O.V. Fedorova och S.G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 sid. — ISBN 978-5-4465-2188-3 .
  7. Sichinava D.V. Nationell korpus av det ryska språket: en översikt över förhistoria  // Nationell korpus av det ryska språket: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Arkiverad från originalet den 31 juli 2019.
  8. 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. ,  Tsinman L. L. Syntaktiskt och semantiskt kommenterade språkkorpus: / den ryska statens nuvarande och prospektkorpus . Ryska språket: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Arkiverad från originalet den 31 juli 2019.
  9. Zakharov V.P. , Bogdanova S.Yu. Corpus linguistics . - 3:e uppl., reviderad. - St Petersburg. : St. Petersburg University Press, 2020. - S. 47. - 234 s. - ISBN 978-5-288-05997-1 .
  10. 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Semantisk uppmärkning i en djupt kommenterad korpus av det ryska språket  // Proceedings of the International Conference "Corpus Linguistics-2004". - St Petersburg. : St. Petersburg State University, 2004. - S. 41-54 . Arkiverad från originalet den 31 juli 2019.
  11. 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Utveckling av en syntaktisk markerad korpus av det ryska språket  // Rapporter från den vetenskapliga konferensen "Corpus Linguistic Databases". - St Petersburg. : St. Petersburg State University, 2002. - S. 40-50 . Arkiverad från originalet den 31 juli 2019.
  12. Korpuslingvistik . Laboratory of Computational Linguistics IPTP RAS (11 februari 2020). Hämtad 12 februari 2020. Arkiverad från originalet 22 februari 2020.
  13. 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. Den aktuella texten i det ryska språket djupt och inte i ryska )  // Samling "Nationell korpus av det ryska språket: 10 år av projektet." - M . : Proceedings of the Institute of the Russian Language. V. V. Vinogradova, 2015. - Utgåva. 6 . - S. 272-299 . Arkiverad från originalet den 31 juli 2019.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Regelbaserad beroendetolkare förfinad av och empirisk korpusstatistik  //  Proceedings of the International Conference on Dependency Linguistics. - 2011. - S. 318-327 . Arkiverad från originalet den 31 juli 2019.
  15. Droganova K. , Lyashevskaya O. , Zeman D. Datakonvertering och konsistens av monolingual corpora: Russian UD treebanks  (engelska)  // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Oslo universitet, Norge: Linköping University Electronic Press, 2018. - S. 52-65 . Arkiverad 19 mars 2020.
  16. 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadezhda Frid. Utveckling av en beroendeträdbank för ryska och dess möjliga tillämpningar i NLP  (engelska)  // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III . - s. 852-856 . Arkiverad från originalet den 10 augusti 2017.
  17. 1 2 Syntaktisk markerad korpus av det ryska språket: information för användare . Nationella korpus av det ryska språket . Hämtad 29 mars 2020. Arkiverad från originalet 25 mars 2020.
  18. Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Linguistisk processor för komplexa informationssystem. - M .: Science , 1992. - S. 32-40, 56-73. — 256 sid.
  19. Leonid Iomdin , Victor Sizov. Structure Editor: a Powerful Environment for Tagged Corpora  //  Research Infrastructure for Digital Lexicography. - Ljubljana: Jožef Stefan Institute, 2009. - S. 1-12 .
  20. 1 2 Iomdin L. L. Microsyntactic markup in the corpus of Russian texts  // Proceedings of the international scientific conference "Corpus Linguistics - 2017". - St Petersburg. : St. Petersburg State University, 2017. - S. 188-194 . Arkiverad från originalet den 20 november 2021.
  21. Iomdin L. L. I djupet av mikrosyntax: en lexikal klass av syntaktiska fraser  // Computer Linguistics and Intelligent Technologies. - M. : RGGU, 2008. - S. 178-184 . Arkiverad från originalet den 29 augusti 2019.
  22. 1 2 3 4 Droganova K. , Zeman D. Konvertering av SynTagRus (den ryska beroendeträdbanken) till Universal Dependencies  (engelska)  // Teknisk rapport. — Institutet för formell och tillämpad lingvistik, fakulteten för matematik och fysik, Charles University, 2016. Arkiverad från originalet den 8 juni 2021.
  23. 1 2 Luu A. , Malamud SA , Xue N. Converting SynTagRus dependency treebank into Penn treebank style  //  Proceedings of the 10th Linguistic Annotation Workshop som hölls i samband med ACL 2016 (LAW-X 2016). - 2016. - S. 16-21 . Arkiverad från originalet den 27 februari 2019.
  24. Lipenkova J. , Souček M. Konvertera rysk beroendeträdbank till Stanford-typad beroenderepresentation  (engelska)  // Proceedings of the 14th Conference of the European Chapter of Association for Computational Linguistics. - 2014. - Vol. 2 . - S. 143-147 . Arkiverad från originalet den 8 juni 2018.
  25. Lyashevskaya O. N. Corpus instrument i grammatiska studier av det ryska språket. - M . : Förlag YASK, 2016. - S. 193. - 520 sid.

Länkar