SinTagRus | |
---|---|
Fallvolym | över 1,1 miljoner ord |
Språk | ryska |
Grundläggande uppmärkningstyper | morfologiska , syntaktiska , lexikosemantiska |
Kompilatorer | Laboratoriet för datorlingvistik IPTP RAS |
datum för skapandet | 1998 |
Tillgång | fri |
Licens | Proprietär |
Hemsida | proling.iitp.ru/ru/proje... |
SynTagRus ( eng. SynTagRus , förkortning för engelska. Syntactically Tagged Russian text corpus , "syntactically annotated corpus of Russian texts") är en djupt kommenterad korpus av ryska texter , den första korpusen av ryska texter med syntaktisk uppmärkning. Den har utvecklats sedan 1998 av Laboratory of Computational Linguistics vid IPTP RAS i samarbete med Sector of Theoretical Semantics i IRL RAS . Korpusen består av texter av olika genrer; det totala antalet ordanvändningar är mer än 1 miljon .
SynTagRus är baserad på ideologin för den flerfunktionella språkprocessorn ETAP . En egenskap hos korpusen är närvaron av flera nivåer av annotering av olika djup, inklusive fullständig morfologisk och syntaktisk markering med borttagen homonymi . Markup-språket är XML .
SynTagRus distribueras under en icke-kommersiell licens . Dessutom har korpusen konverterats till olika format; några av dessa versioner (eller omvandlare) är offentliga, och en begränsad version av den ursprungliga korpusen är en del av den ryska nationella korpusen .
Framväxten av syntaktiska uppmärkningskorpora i början av 1990 - talet resulterade i utvecklingen av empiriska metoder i naturliga språkbehandlingsproblem . Dessutom har användningen av sådana korpus funnit sin tillämpning inte bara i samband med själva syntaktisk analys, utan också i ett antal andra uppgifter, inklusive lexikal polysemiupplösning , semantisk analys , etc. [1]
I slutet av 1990-talet hade kommenterade korpus skapats för de flesta av de större europeiska språken , medan inga sådana korpus faktiskt existerade för det ryska språket [2] . Dessutom var inte ens de omärkta korporna som fanns vid den tiden (till exempel Uppsala Corpus of Russian Texts ) offentligt tillgängliga [3] .
Av dessa skäl började sedan 1998 [4] utvecklingen av den första kommenterade korpusen av det ryska språket SinTagRus [2] [5] , som senare blev standarden bland korpus med syntaktisk markering [6] . Samtidigt deltog utvecklarna också i skapandet av National Corpus of the Russian Language; i synnerhet SynTagRus (med vissa begränsningar) har varit en integrerad, men helt autonom del av NCRP sedan skapandet av den senare [7] [8] . I NKRY för SinTagRus (som en underkorpus) används också namnet "djupt kommenterad korpus" [9] .
Utvecklingen av SinTagRus utförs av Laboratory of Computational Linguistics av IPTP RAS i samarbete med Sector of Theoretical Semantics av IRL RAS [10] .
Källmaterialet för SinTagRus var Uppsala Corpus of Russian Texts : cirka 10 000 meningar hämtades från skönlitterära texter. Därefter lades korta (upp till 30 meningar) texter till korpusen, hämtade från webbplatserna för populära nyhetspublikationer ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .
SynTagRus utvecklas ständigt och har från och med 2020 cirka 77 tusen meningar (mer än 1,1 miljoner ordanvändningar) [12] hämtade från texterna i följande genrer [13] [8] [14] :
En utmärkande egenskap hos SynTagRus jämfört med andra kommenterade korpus av det ryska språket är närvaron av flera nivåer av annotering av olika djup, som kan extraheras oberoende från korpusen, och antalet av dessa nivåer är potentiellt obegränsat. Korpusets märkningsspråk är XML , och märkningsformatet är kompatibelt med TEI formalism , med undantag för några extra introducerade element och attribut [2] . I princip görs fritextuppmärkning i två steg [11] :
Följande kommer att lista de uppmärkningstyper som är tillgängliga i korpusen.
Varje text i SinTagRus är uppdelad i meningar. Varje mening är ett element som heter S , och varje sådant element har ett ID- attribut vars värde är serienumret på meningen i texten. På liknande sätt är varje mening uppdelad i lexikaliska element med namnet W , och varje sådant element har ett ID- attribut , vars värde är ordningsnumret på ordet i denna mening [11] . Skiljetecken är formaterade som texten i satstaggen (bevarar deras relativa position i källtexten) och uttrycks inte av sina egna taggar [15] .
Den morfologiska strukturen av en ordform är namnet på ett lexem , eller lemma , till vilket en del av talet och morfologiska egenskaper tillskrivs , det vill säga betydelsen av motsvarande morfologiska kategorier . För motsvarande ordform är lemma värdet av LEMMA- attributet och ordled och morfologiska egenskaper tillsammans är värdet av FEAT [8] [16] -attributet .
Beskrivning av morfologisk markering [17]Del av tal | Minskning | Exempel |
---|---|---|
Substantiv | S | fabrik , dvs |
Adjektiv | A | nya min _ |
Verb | V | klänning |
Adverb | ADV | dåligt , typ |
siffra | NUM | fem , 2 |
Ursäkt | PR | under |
Sammansatt | COM | luft , vatten |
Union | CONJ | och |
Partikel | DEL | trots allt |
Interjektion | INTJ | Så och så |
Ordet är ett främmande språk | NID | Whatsapp , Berliner Zeitung |
Morfologisk egenskap | Minskning | Notera |
---|---|---|
Animation | ||
animerad | OD | |
livlös | NEOD | |
Släkte | ||
Manlig | MAKE | |
Kvinna | KVINNA | |
Medel | ONSDAG | |
siffra | ||
Den enda saken | ED | |
flertal | MN | |
fall | ||
Nominativ | DEM | |
Genitiv | SLÄKTE | |
Partitiv | DEL | Anges endast för substantiv där denna form skiljer sig grafiskt från genitivformen |
Dativ | DAT | |
Ackusativ | VIN | |
Instrumental | TVOR | |
Prepositionell | ETC | |
Lokal | LOKAL | Anges endast för substantiv där denna form är grafiskt annorlunda än prepositionsformen |
Vokativ | SW | Anges endast för substantiv där denna form skiljer sig grafiskt från den nominativa kasusformen |
Grad av jämförelse | ||
Jämförande | SRAV | |
excellent | FÖREG | |
Korthet | ||
Kort | KR | |
representation | ||
Infinitiv | INF | |
Particip | PRIS | |
gerundium | DJUP | |
Humör | ||
indikativ | FEL | |
nödvändigt | POV | |
Se | ||
Ofullständig | NESOV | |
Perfekt | UGGLA | |
Tid | ||
Icke-förflutna | NEPROSH | |
Dåtid | PROSH | |
Nutiden | NAST | Tillskrivs endast verbet att vara i personlig form |
Ansikte | ||
Först | 1-L | Tillskrivs endast verb |
Andra | 2-L | |
Tredje | 3-L | |
Lova | ||
Passiv | STRAD | |
ytterligare egenskaper | ||
Sammansättning | SL | |
Uppmjukad jämförande grad | SMYAG |
Den syntaktiska uppmärkningen av korpussatser utförs inom ramen för beroendegrammatik : den syntaktiska strukturen är ett orienterat träd , vars noder är ord, och varje kant är riktad från huvudordet till tjänarordet och motsvarar någon syntaktisk relation . Ordet som motsvarar trädets rot kallas toppen av meningen och är, till skillnad från resten av orden i meningen, inte syntaktisk beroende av någon annan. Syntaktiska grupper är ordnade i form av underträd till källträdet: i varje sådant underträd är en av medlemmarna i gruppen dess representant i yttre relationer och underordnar de återstående medlemmarna i gruppen [18] . Totalt urskiljs cirka 70 typer av syntaktiska relationer i SinTagRus [13] .
Använda syntaktiska relationer [17]Syntaxrelation | Minskning | Ordvärd | Ordets tjänare |
---|---|---|---|
Predikativ | predikat | Predikat | Ämne |
Dativ-subjektiv | datum-ämne | Ange ord | subjekt för staten betecknat med värdordet |
Agent | ombud | ord för handling | Ämnet för åtgärden betecknat med värdordet |
Kvasiagent | kvasi-agent | predikat substantiv | Ord som implementerar den första syntaktiska valensen för värdordet |
Proprietär-agent | felagent | Verb | Ett ord som implementerar den första semantiska valensen av ett substantiv som är en semantisk aktant av värdordet |
Först färdig | 1-set | predikatord | Den syntaktiska aktanten för värdordet, förutom det första. Således hänvisar den första komplexa relationen till den andra aktanten, den andra till den tredje och så vidare. |
Andra komplett | 2-set | ||
Tredje komplett | 3-set | ||
Fjärde klar | 4-set | ||
Femte klar | 5-set | ||
Anknytning | bunden | Länka verb | Nominell del av predikatet |
Den första felaktigt-komplett | 1-fel-set | funktionellt verb | Komplement (första, andra, etc.), vars semantiska värd är någon semantisk aktant av värdordet |
Den andra felaktig-komplett | 2-fel-set | ||
Tredje felaktigt-komplett | 3-fel-set | ||
Fjärde felaktigt-komplett | 4-fel-set | ||
Femte felaktigt-komplett | 5-felaktigt-set | ||
Icke-aktant-komplett | icke-aktuppsättning | predikatord | Ett ord som inte är en fullfjädrad semantisk aktant av värdordet, men som i sin syntaktiska funktion liknar komplementet |
Komplementär-positiv | ställ appos | Parametriskt substantiv eller substantiv av typ flyg , rutt , tåg | Värdordets semantiska aktant, om denna aktant uttrycks i nominativ eller dess syntaktiska motsvarighet |
prepositionell | erbjudande | Ursäkt | Vertex av en substantivfras beroende på en preposition |
Underordnad allierad | underallians | Underordnat förbund | Toppen av den underordnade klausulen införd av reparationsfacket |
infinitiv-union | inf-facket | Underordnat förbund | Infinitiv |
Jämförande | jämföra | Jämförande adjektiv eller adverb | Spetsen för en substantivfras i genitivfallet, som representerar den andra av de jämförda medlemmarna, eller en jämförande förening än |
Verb, namn eller adverb | jämförande förbund | ||
jämförande förbund | jämför-union | jämförande förbund | Den andra av de jämförda termerna för den jämförande konstruktionen |
valfri | valfri | Siffertal, ordningsadjektiv, superlativ adjektiv eller adjektiv med ordet mest | Preposition från eller bland introducerar en indikation på den uppsättning där valet görs |
sentential-predikativ | helgonpredikat | Överst i meningen uttrycker situationen som beskrivs i den identifierande konstruktionen | Demonstrativt pronominal substantiv detta eller det i nominativfallet |
Destinationsbindande | tilldela-adr | Relationsord som fungerar som en nominell del av predikatet med en (eventuellt noll) länk | Substantiv i dativfallet, fyller i huvudsak den syntaktiska valensen hos värdordet |
Syntaxrelation | Minskning | Ordvärd | Ordets tjänare |
---|---|---|---|
Determinanter | |||
slutgiltig | definierat | Substantiv eller adjektiv | adjektiv eller particip |
Beskrivande-definitiv | op-def | Substantiv eller adjektiv | Adjektiv eller particip fungerar som ett separat attribut |
Ungefärlig ordningsföljd | ungefärlig ordning | Substantiv | ordinärt adjektiv |
Släkting | relation | Substantiv eller adjektiv | Toppen av det relativa attributivet |
allmänt attributivt | |||
attributiv | atrib | Substantiv eller adjektiv | Inkonsekvent definition |
Sammansatt | sammansättning | Den andra delen av det sammansatta ordet | Den första delen av ett sammansatt ord |
appositiv | |||
appositiv | appos | Substantiv | Nästa ansökan |
Separat-positiv | ob-appos | Substantiv | Separat applikation till värdordet |
nominativ-appositiv | nom-appos | Substantiv | Överst i en citerad grupp som uttrycker ett namn |
Numerativ-positiv | num appoz | Substantiv som anger regelbundet numrerade objekt | Namnet är siffra i nominativ eller skrivet i siffror (indikerar ett nummer) |
kvantitativ | |||
kvantitativ | kvantitet | Substantiv | Tal i preposition |
Approximativ-kvantitativ | ungefärligt antal | Substantiv | Siffra i postposition |
Kvantitativ-Kopredikativ | nummer-copred | Ett verb där det finns ett substantiv i genitivfallet, som fungerar som subjekt med det | Toppen av siffergruppen eller toppen av den nominella gruppen med ett kardinalvärde |
Kvantitativt-begränsande | antalsgräns | Jämförande adjektiv eller adverb | Adverb eller toppen av gruppen med prepositioner i eller på , som indikerar intensitet |
distribution | distribution | Toppen av en substantivfras som anger en viss parameter (pris, hastighet, vikt, etc.) | Ett substantiv i nominativ fall eller toppen av en grupp med prepositioner i , på , för , som indikerar en måttenhet |
tillsats | addit | Siffra eller toppen av en kvantitativ grupp | Siffra eller toppen av en kvantitativ grupp |
omständlig | |||
omständlig | obst | Ett verb eller ord i en annan del av tal som är spetsen i en mening | Omständighet |
lång | lång | Verb | En omständighet av varaktighet uttryckt av ett substantiv i ackusativ fall eller av en prepositionsgrupp med betydelsen ungefärlig kvantitet eller fördelning |
Flera långa | flera långa | Verb | En omständighet av flera varaktighet uttryckt av ett substantiv i instrumental plural |
avlägsen | distans | Verb | En omständighet av rumslig utsträckning uttryckt av ett substantiv i ackusativ kasus eller av en prepositionsgrupp med betydelsen ungefärlig kvantitet eller fördelning |
omständighet-tautologiska | obst-spänd | Verb | Ett substantiv i instrumentalfallet, som duplicerar en del av värdordets betydelse |
subjektiv omständighet | undermiljö | Verb | En omständighet i det instrumentella fallet som kännetecknar samtidigt handlingsföremålet |
Objekt omständighet | obst | Verb | En omständighet i det instrumentella fallet som kännetecknar samtidigt handlingsobjektet |
subjektiv-kopredikativ | sub-copr | Verb | Toppen av nominalfrasen i nominativ eller instrumentell kasus, eller toppen av prepositionsgruppen, som verkar i en funktion som ligger nära funktionen hos den nominala delen av det sammansatta predikatet, men karaktäriserar subjektet i betydelse och (i fallet med den nominella frasen) överensstämmer med den i kön och nummer |
Objekt-Kopredikativ | ob-copr | Verb | Toppen av nominalgruppen i instrumental eller ackusativ kasus eller toppen av prepositionsgruppen, som kännetecknar objektet. Om ordet tjänare uttrycks med en substantivfras, så stämmer det överens med komplementet i kön och nummer |
Restriktiv | begränsad | Ord i någon del av talet | Partikel eller restriktivt adverb |
inledande | introduktion | Predikat eller annan medlem av meningen | Inledningsord , inledande tur, mening eller överklagande |
Förklarande | klar | Överst på huvudsatsen | Toppen av den underordnade klausulen, inklusive det allierade ordet vad , varför eller varför |
förklarande | förklara | Godtyckligt ord | Ett ord som har anhöriga och tillsammans med dem ger ytterligare information om värdordet eller den grupp av ord som representeras av värdordet. En formell "förtydligande markör" krävs, vilket kan vara ett skiljetecken eller ett uttryck som introducerar ytterligare information |
angränsande | angränsande | Ordet som är uttryckets "mästare", vars topp är ordet tjänare | Toppen av ett uttryck som är beroende av värdordet, placerat till höger om värdordet och omgivet av parentes eller avgränsat på båda sidor av ett bindestreck |
kval | klargörande | Representativ (vertex) för något uttryck | Representant för något uttryck. Detta uttryck förfinar semantiskt uttrycket som representeras av värdordet, men båda dessa uttryck har samma syntaktiska funktion. |
Syntaxrelation | Minskning | Ordvärd | Ordets tjänare |
---|---|---|---|
skrivande | skrivande | Medlem av den koordinerande strukturen | Medlem i en samordningskonstruktion eller en samordnande konjunktion. Ligger omedelbart till höger om värdordet. |
sentential-koordinerande | helgon op | Toppen av den första av homogena meningar | Överst i andra meningen eller samordningsförbund |
Samordningsförbund | op-union | skrivarförbund _ | Toppen av den andra av de homogena termerna eller meningarna |
Flera olika | flera olika | Huvudmedlemmen i en multipelkonstruktion är ett substantiv , adjektiv , adverb , siffra eller verb | Beroende medlem av en multipelkonstruktion. Bildas antingen på samma sätt som huvudmedlemmen och separeras från den med bindestreck, bindestreck, kolon eller snedstreck, eller introduceras med prepositionen "på" eller "till" |
Syntaxrelation | Minskning | Ordvärd | Ordets tjänare |
---|---|---|---|
Analytisk | analyt | Beståndsdelar i det sammansatta verbala predikatet . Dessa element bildar en komplex framtidsform eller konjunktiv . | |
Passiv-analytisk | passera analt | Verb - länk "att vara" | Passiv nattvard |
Kvantitativt-hjälpmedel | nummer-hjälp | Den högra sidan av ett sammansatt siffra eller sammansatt ordningsadjektiv | Den vänstra sidan av ett sammansatt siffra eller sammansatt ordningsadjektiv |
släkting | korrelation | Den vänstra sidan av en bruten parad konjunktion , preposition eller partikel , eller den högra sidan av en bruten parad koordinerande konjunktion | Den högra sidan av en bruten parad konjunktion, preposition eller partikel, eller den vänstra sidan av en bruten parad koordinerande konjunktion |
EXPLENTIVT | explet | Demonstrativt pronomen - "packning" som det , det | Underordnat fackförbund eller toppen av meningen. Mästarordet "dechiffreras" av tjänarordet |
Proleptisk | proleptus | Semantiskt tvetydigt ord som upptar en full position i en mening | Ord utåt |
Extra | extra | Delar av syntaktisk och semantisk enhet av fraser |
För att registrera information om den syntaktiska strukturen för en mening i SynTagRus används två attribut för varje ord i meningen: DOM , vars värde är värdordets ID , och LINK , vars värde är namnet på motsvarande syntaktiska relation [16] . Den övre delen av meningen har specialvärdet för _root DOM - attributet [19] .
Varje ordform, förutom lemma , tilldelas attributet KSNAME , vars värde är namnet på motsvarande post i den förklarande-kombinatoriska ordboken för den språkliga ETAP-processorn. På grund av detta specificeras å ena sidan betydelsen av polysemantiska och homonyma ord, och å andra sidan upprättas en koppling med posterna i ordboken, som används av ETAP-processorn, och informationen som finns i dessa poster om ordens semantiska egenskaper blir tillgängliga [10] .
Meningar är markerade med fraser som kan tolkas i termer av lexikaliska funktioner . För att markera sådana fraser inuti meningen skapas ytterligare element separat från själva ordformerna [13] .
Mikrosyntaktiska enheter i SynTagRus förstås som fraseologiska enheter med syntaktisk specificitet [20] . Ett exempel är den sammansatta prepositionen som gäller . Å ena sidan är det syntaktisk nära primitiva prepositioner. Det är faktiskt omöjligt att infoga en pronomindefinition till ett substantiv mellan elementen i denna preposition, som i andra prepositionella konstruktioner av typen i formen , i kasus etc. Dessutom, om det personliga pronomenet för den tredje personen är subjekt till denna preposition i meningen, då i de flesta fall initialen n- , som i fallet med primitiva prepositioner. Å andra sidan kan den första delen av vissa parade konjunktioner , liksom partikeln om eller , lokaliseras mellan prepositionen i kraft och substantivet som beror på den, vilket gör det omöjligt att tillskriva denna preposition till primitiver [21] .
Om en mikrosyntaktisk enhet förekommer i någon mening i korpusen läggs ett nytt meningsattribut till - MICROSYNT , vars värde är namnet på motsvarande mikrosyntaktiska enhet och dess linjära gränser [20] .
För ett anaforiskt pronomen som påträffas i texten anges dess antecedent , det vill säga uttrycket som detta pronomen syftar på. En mening där ett anaforiskt pronomen finns har ytterligare ett COREF- attribut vars värde är en lista över pronomen-föregående par som motsvarar det givna pronomenet. För varje anaforiskt pronomen anges dess linjära position i meningen, och för antecedenten anges dessutom i vilken mening i förhållande till den aktuella den finns (inom tre meningar i båda riktningarna) [4] .
I SynTagRus återställs utelämnade fragment av elliptiska meningar explicit. Den motsvarande återställda ordformen markeras på samma sätt som andra ordformer; i synnerhet är alla nödvändiga syntaktiska länkar hämtade från sådana "fantom"-ord. Denna ordform tilldelas attributet NODETYPE med värdet FANTOM [2] [22] .
SynTagRus används inom olika områden. Å ena sidan bedrivs rent språklig forskning på dess grund, både teoretisk och praktisk (särskilt inom området lexikografi ). Å andra sidan finner korpusen sin tillämpning i beräkningslingvistikens uppgifter som en källa för språklig data, till exempel när man skapar parsers . Dessa uppgifter kan lösas med olika uppmärkningsformat. Samtidigt gör kombinationen av flera byggnader med olika markeringar till en den senare mer representativ. Dessa omständigheter leder till problemet med korpuskonvertering [4] .
Det har gjorts upprepade försök att översätta SynTagRus till andra uppmärkningsformat: experiment är kända för att konvertera korpusen till formaten HPSG och PDT [13] . Dessutom konverterades SynTagRus framgångsrikt till formaten CoNLL-U [22] , PTB [23] och SD [24] . Konverteringen gällde dock för det första i alla fall endast morfologiska och syntaktiska markeringar, och för det andra utfördes den automatiskt, vilket blev ett hinder för fullvärdig konvertering. Så t.ex. kunde NID inte entydigt översättas till formatet CoNLL-U (där det inte finns någon sådan del av tal) automatiskt, så alla SinTagRus-satser där minst en ordform hade en sådan en del av talet uteslöts från korpusen före konverteringen [22] .
SynTagRus distribueras gratis under en icke-kommersiell licens [25] . Dessutom finns en version av korpusen utan vissa typer av uppmärkning tillgänglig för icke-kommersiellt bruk för forsknings- och undervisningsändamål som en underkorpus av det ryska språkets nationella korpus och är allmän egendom [13] , såväl som versioner i CoNLL-U -format (licens CC BY-NC-SA 4.0 ) [22] och PTB (endast omvandlare tillgänglig) [23] .
Korpuslingvistik | |
---|---|
engelska korpus |
|
Ryskspråkiga korpus |
|
Corpora på andra språk |
|
Organisationer |