Skriftlig korpus av det tatariska språket

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 25 december 2017; kontroller kräver 2 redigeringar .
Skriftlig korpus av det tatariska språket
URL corpus.tatar
Webbplatstyp korpus av texter
Språk) tatariska/ryska/engelska
Serverns plats Tatarstan
Författare Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
Början av arbetet 2011
Nuvarande status Arbetar och utvecklar

Den skriftliga korpusen för det tatariska språket  är en elektronisk korpus av det tatariska språket, tillgänglig för onlineanvändning. Korpusen är avsedd för dem som är intresserade av det tatariska språkets system, tillstånd och framtidsutsikter. Det är nödvändigt för lingvister som studerar det tatariska språket inom ramen för korpuslingvistik.
Webbplatsen öppnades den 15 mars 2012. Nuvarande adress är http://corpus.tatar Arkiverad 26 april 2016 på Wayback Machine .
Finns på tatariska, ryska och engelska.

Skrovvolym

Sedan slutet av 2014 har volymen på korpusen mer än 116 miljoner ord som utgör mer än 10 miljoner meningar, antalet olika ordformer närmar sig 1,5 miljoner
Texter i korpusen lagras som separata meningar för att förhindra deras kopiering.

Åtkomst

Tillgång till användningen av byggnaden är gratis.

Om att bygga en kår

Skapandet av fallet började 2010 av en grupp entusiaster. Det dikterades av behovet av att utveckla ett system för maskinöversättning av texter från tatariska till ett främmande språk och vice versa, såväl som ett system för automatisk syntes och igenkänning av tatariskt tal om ett visst ämne.

Praktisk betydelse och användningsmöjligheter

Korpusen kan användas av lingvister som studerar det tatariska språket som en del av korpuslingvistiken, samt vid undervisning i språket och som referens vid sammanställning av olika dokument.
Korpusen låter dig se sammanhanget, bestämma frekvensen av händelser och hitta ord med de nödvändiga egenskaperna.

Kontextuell statistisk sökning

Denna typ av sökning Arkiverad 26 april 2016 på Wayback Machine låter dig se höger, vänster och semantiska sammanhang för det sökta ordet sorterat efter frekvens.
Rätt kontext - ord placerade omedelbart efter det aktuella ordet.
Det vänstra sammanhanget är orden omedelbart före det aktuella ordet.
Semantisk kontext - ord som ligger i samma mening med det aktuella ordet, det vill säga har en semantisk koppling till det i en eller annan grad.

Komplex morfologisk sökning

2014 gjordes den morfologiska markeringen av Kåren. Metaspråket för grammatiska märken är baserat på systemet med "taggar" för de turkiska språken, utvecklat av det internationella projektet Apertium Archived April 14, 2016 at the Wayback Machine . Som en del av detta projekt skapas ett maskinöversättningssystem för ett stort antal språk. De viktigaste argumenten för att välja Apertiums morfologiska taggare för att markera den skriftliga korpusen är:
— Hög kvalitet på den morfologiska annoteringen;
- Absolut öppenhet för detta projekt: alla källkoder och utvecklingar är offentligt tillgängliga för alla gratis. Det komplexa morfologiska söksystemet
utvecklat av oss 2015-2016 Arkiverat 26 april 2016 på Wayback Machine låter dig söka i Corpus baserat på olika kombinationer av sådana parametrar som ordform, lemma, en uppsättning morfologiska (grammatiska) taggar, början, mitten, slutet av ett ord med angivande av möjliga avstånd mellan lexem.

Tatariskt talsyntessystem

På webbplatsen för Written Corpus of the Tatar Language är det möjligt att lyssna på både hittade meningar och fritext Arkiverad 26 april 2016 på Wayback Machine .

Statistik

Corpus-webbplatsen är värd för olika statistiska data Arkivkopia daterad 26 april 2016 på Wayback Machine , som författarna får när uppgifterna bearbetas.

Nackdelar och utvecklingsmöjligheter

Kompilatorer

Skaparna av korpusen är:

Assisterad av:

Litteratur [1]

Anteckningar

  1. Skriftlig korpus av det tatariska språket . Hämtad 22 april 2016. Arkiverad från originalet 25 april 2016.

Länkar