Skriftlig korpus av det tatariska språket | |
---|---|
URL | corpus.tatar |
Webbplatstyp | korpus av texter |
Språk) | tatariska/ryska/engelska |
Serverns plats | Tatarstan |
Författare | Sayhunov M.R., Ibragimov T.I., Khusainov R.R. |
Början av arbetet | 2011 |
Nuvarande status | Arbetar och utvecklar |
Den skriftliga korpusen för det tatariska språket är en elektronisk korpus av det tatariska språket, tillgänglig för onlineanvändning. Korpusen är avsedd för dem som är intresserade av det tatariska språkets system, tillstånd och framtidsutsikter. Det är nödvändigt för lingvister som studerar det tatariska språket inom ramen för korpuslingvistik.
Webbplatsen öppnades den 15 mars 2012. Nuvarande adress är http://corpus.tatar Arkiverad 26 april 2016 på Wayback Machine .
Finns på tatariska, ryska och engelska.
Sedan slutet av 2014 har volymen på korpusen mer än 116 miljoner ord som utgör mer än 10 miljoner meningar, antalet olika ordformer närmar sig 1,5 miljoner
Texter i korpusen lagras som separata meningar för att förhindra deras kopiering.
Tillgång till användningen av byggnaden är gratis.
Skapandet av fallet började 2010 av en grupp entusiaster. Det dikterades av behovet av att utveckla ett system för maskinöversättning av texter från tatariska till ett främmande språk och vice versa, såväl som ett system för automatisk syntes och igenkänning av tatariskt tal om ett visst ämne.
Korpusen kan användas av lingvister som studerar det tatariska språket som en del av korpuslingvistiken, samt vid undervisning i språket och som referens vid sammanställning av olika dokument.
Korpusen låter dig se sammanhanget, bestämma frekvensen av händelser och hitta ord med de nödvändiga egenskaperna.
Denna typ av sökning Arkiverad 26 april 2016 på Wayback Machine låter dig se höger, vänster och semantiska sammanhang för det sökta ordet sorterat efter frekvens.
Rätt kontext - ord placerade omedelbart efter det aktuella ordet.
Det vänstra sammanhanget är orden omedelbart före det aktuella ordet.
Semantisk kontext - ord som ligger i samma mening med det aktuella ordet, det vill säga har en semantisk koppling till det i en eller annan grad.
2014 gjordes den morfologiska markeringen av Kåren. Metaspråket för grammatiska märken är baserat på systemet med "taggar" för de turkiska språken, utvecklat av det internationella projektet Apertium Archived April 14, 2016 at the Wayback Machine . Som en del av detta projekt skapas ett maskinöversättningssystem för ett stort antal språk. De viktigaste argumenten för att välja Apertiums morfologiska taggare för att markera den skriftliga korpusen är:
— Hög kvalitet på den morfologiska annoteringen;
- Absolut öppenhet för detta projekt: alla källkoder och utvecklingar är offentligt tillgängliga för alla gratis. Det komplexa morfologiska söksystemet
utvecklat av oss 2015-2016 Arkiverat 26 april 2016 på Wayback Machine låter dig söka i Corpus baserat på olika kombinationer av sådana parametrar som ordform, lemma, en uppsättning morfologiska (grammatiska) taggar, början, mitten, slutet av ett ord med angivande av möjliga avstånd mellan lexem.
På webbplatsen för Written Corpus of the Tatar Language är det möjligt att lyssna på både hittade meningar och fritext Arkiverad 26 april 2016 på Wayback Machine .
Corpus-webbplatsen är värd för olika statistiska data Arkivkopia daterad 26 april 2016 på Wayback Machine , som författarna får när uppgifterna bearbetas.
Skaparna av korpusen är:
Assisterad av: