Tjeckiens nationella korpus

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 5 oktober 2020; verifiering kräver 1 redigering .
Tjeckiska nationella kåren
URL ucnk.ff.cuni.cz
Kommersiell Nej
Webbplatstyp pedagogiskt/vetenskapligt projekt
Språk) tjeckiska/engelska
Serverns plats Tjeckien , Prag
Författare Charles University
Nuvarande status Arbetar och utvecklar

The Czech National Corpus (Český národní korpus eller ČNK)  är en offentligt sökbar databas med skrivna texter i elektronisk form på det tjeckiska språket, som underhålls av Karlsuniversitetet i Prag . Webbplatsen är tillgänglig på tjeckiska och engelska.

Skapande historia

Idén om CNC lades fram först 1991 och stöddes av representanter för filosofiska fakulteten vid Charles University , fakulteten för matematik och fysik vid Charles University, Masaryk University , Palacký University , Institute of the Czech Language of the Czech Academy of Vetenskaper .

Förutsättningarna för skapandet av korpusen var sådana faktorer som det moderna tjeckiska språkets avvikelse från allmänt accepterade normer (skapandet av en korpus skulle hjälpa till att rädda den tjeckiska lexikografin från sådana avvikelser) och stabiliseringen av den politiska situationen (vidare samarbete med internationella vetenskapssamfundet hjälpte till att introducera datorlexikografi och korpuslingvistik som separata grenar, i tjeckisk lingvistik). 1994 inrättades Institute of the Czech National Corpus vid Charles Universitys filosofiska fakultet, och samarbetsavtal mellan institutet och vissa institutioner i Tjeckien undertecknades [1] .

Kompilatorer

Från och med den 10 september 2017 arbetar följande personer med den tjeckiska nationella korpusen:

Ärendets sammansättning och volym

Corpus of Written Texts / Written corpora (synkroniska) ~2705 miljoner ord
Korpus av muntliga texter / Talade korpuser (synkrona) ~4 miljoner ord
Diakronisk korpus / Diakronisk korpus 1,95 miljoner ord
Korpus av främmande språk / främmande språkkorpus 6248 miljoner ord
Parallell corpus / Parallell corpus 92 miljoner ord

Den totala volymen av korpusen är över 9 miljarder ordanvändningar, varav ~8894,5 miljoner är lemmatiserade och taggade med morfologiska taggar [3] .

Textkällor

Huvudinnehållet i CHNC är:

En separat CNC-korpus är tillägnad George Orwells dystopi " 1984 ", vars relativt lilla storlek (80 000 ord och 20 000 skiljetecken) gjorde det möjligt att manuellt markera texten nästan felfritt [4] .

Åtkomst

Det finns två typer av åtkomst till webbplatsen: offentlig och fullständig.

En obehörig användare kan bara söka i SYN2010-korpusen, som bara är 100 miljoner ord, vilket är en nittiondel av hela basen av den tjeckiska nationella korpusen. SYN2010 består [5] av 40 % skönlitteratur, 27 % teknisk litteratur och 33 % journalistik. De flesta av texterna i korpusen skapades mellan 2005 och 2009.

Offentlig tillgång låter dig se antalet förekomster i SYN2010 och de första 50 exemplen. Ord ges i formatet konkordansrader, när varje rad är en del av texten där det givna uttrycket finns. För allmänhetens tillgång är det möjligt att använda grundläggande reguljära uttryck, det går även att söka på nyckelord.

Den registrerade användaren har full tillgång till databasen för ChNK Institute, såväl som till specialfallshanteraren Bonito.

Bonito

Bonito (A Modular Corpus Manager Bonito) är ett grafiskt användargränssnitt ( GUI ) för Manatee Corpus Manager, skapat vid Natural Language Processing Center, som ligger vid fakulteten för datavetenskap vid Masaryk Institute i Brno. Skapad av Pavel Rychlý, fakultetsassistent [6] .

Samarbete

Just nu[ specificera ] Följande institutioner i Tjeckien samarbetar med kåren:

Korpusen samarbetar också med fakulteten för slaviska språk vid Brown University ( USA ), fakulteten för filologi och konst vid St. Petersburg State University ( Ryssland ), fakulteten för filosofi och litteratur vid universitetet i Granada ( Spanien ), Institutet för tyska språket i Mannheim ( Tyskland ), universitetet i Amsterdam ( Nederländerna ) och andra stora vetenskapliga centra [7] .

Se även

Anteckningar

  1. 1 2 Czech National Corpus (CNC)
  2. Människor | Institutet för den tjeckiska nationella korpusen
  3. Tillgänglig Corpora | Institute of the Czech National Corpus (otillgänglig länk) . Hämtad 10 september 2017. Arkiverad från originalet 10 september 2017. 
  4. ORWELL | Institutet för den tjeckiska nationella korpusen
  5. Allmän tillgång Arkiverad 29 oktober 2013 på Wayback Machine  (otillgänglig länk - historia ) Hämtad 10 september 2017.
  6. Manatee/Bonito - En modulär Corpus Manager
  7. 1 2 Samarbete | Institutet för den tjeckiska nationella korpusen

Länkar