Mannheim Corpus tyska

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 17 oktober 2013; kontroller kräver 8 redigeringar .

Mannheim German Corpus (COSMAS corpora eller DeReKo) är en samling moderna tyskspråkiga texter som underhålls av Institutet för det tyska språket i Mannheim , Tyskland. Korpusen innehåller olika typer av texter: vetenskaplig och populärvetenskaplig litteratur, ett stort antal tidningstexter, skönlitteratur, etc. Den representerar världens största elektroniska samling av moderna tyskspråkiga texter och är ett verktyg för korpuslingvistik .

Alternativa titlar

Mannheims tyska korpus har flera alternativa namn som German Reference Corpus, IDS corpora, COSMAS corpora. Sedan 2004 har kårens officiella namn varit Deutsches Referenzkorpus (DeReKo).

Skapande historia

Skapandet av en korpus vid German Language Institute (IDS) har en lång historia. Redan 1964 skapade Paul Grebe och Ulrich Engel Mannheim Corps 1, ett projekt som 1967 framgångsrikt hade samlat in cirka 2,2 miljoner vanligt använda ord i tyskt skriftspråk. Sedan dess har den elektroniska textdatabasen kompletterats och utökats genom ett antal efterföljande korpusinsamlingsprojekt. År 2013 är DeReKo en av de viktigaste resurserna i världen för att lära sig tyska . Tillväxttakten för volymen av korpusen är cirka 300 miljoner ord per år. Med "studiet av det tyska språket i dess moderna användning" som huvudmål har IDS-institutet en policy för att säkerställa en långsiktig drift av DeReKo.

DeReKos nyckelfunktioner är:

den största språkligt motiverade samlingen av tyska texter
utvecklats sedan 1964
ständigt expanderar
innehåller texter skapade sedan 1956
innehåller material från skönlitterära, vetenskapliga och tidningstexter samt vissa andra typer av text
innehåller endast fulltexter
innehåller endast oförändrade texter (inga stavningskorrigeringar etc.)
innehåller endast licensierade texter

Huvudmålet med DeReKo är att fungera som en praktisk grund för det vetenskapliga studiet av modern tysk skrift. En av de viktiga principerna är att fokus ligger på språket i sig och inte på informationen som det förmedlar.

Kårens sammansättning

Korpusen innehåller olika typer av texter: skönlitteratur, vetenskaplig och populärvetenskaplig litteratur, tidskrifter etc. Det finns också en underkorpus av muntligt tal (vardagstal, inspelningar av tal från talare av olika dialekter, etc.). Resursen innehåller en korpusbaserad databas med tyska ordkombinationer.

Denna korpus innehåller 6 huvudsubkorpuser:

Skriftlig talkorpus 1.370.766.704 ordanvändning
Korpus av nyanlända 181.319.744 ordbruk
Archiv der phasengegliederten Wendecorpora 3.813.688 användningar
Kortfil från det tyska språksällskapet
Historisk korpus 6.296.361 ordanvändning
Morfosyntaktisk markerad korpus 29.695.096 ordbruk

Korpus av skriftligt tal omfattar 3 Mannheim korpus, såväl som många andra (fiktion, historisk korpus, journalistik, samlade verk av Karl Marx och Friedrich Engels , Thomas Mann korpus, intervjukorpus, etc.).

Skrovvolym

Volymen på korpusen är mer än 1846 miljoner ordanvändningar. Till skillnad från andra välkända korpus (som t.ex. British National Corpus ) syftar DeReKo till att täcka den maximala möjliga volymen av texter, och inte att balansera deras sammansättning: texternas fördelning efter skapelsetid eller texttyp överensstämmer inte med till förutbestämda procentsatser.

Markering och anteckningar

DeReKo har lemmatisering och morfologisk markering , men bara för några av texterna. Det finns dock flera helt konsekventa annoteringar i arkivet på olika språknivåer (åtminstone på delarna av tal och syntaxnivåer). På grund av korpusens stora storlek är varken manuell anteckning eller manuell styrning av automatisk anteckning möjlig. Som ett resultat är den förväntade graden av inexakthet mycket hög, särskilt där det finns språkligt komplexa fenomen.

Metadata

De grundläggande textenheterna i DeReKo- korpusen åtföljs av speciell informationsmetadata . En viktig princip för en korpus är att denna metadata måste vara tillgänglig. Vilken specifik information som är tillgänglig beror på datakällan och typen av text.

Huvudkategorier av metadata:

publiceringsdatum
tid och skapelseperiod
författarens namn
förlagets namn
publiceringsmedium (tidning, bok, nyhetsbyrå)
plats för offentliggörande
texttyp
teman och deras kategorier
kopiera information
kopieringsstorlek
antal ord/meningar/stycken
tecken på gammal och ny ortografi
licensvillkor

Åtkomst

På grund av upphovsrätts- och licensbegränsningar kan DeReKos arkivdatabaser inte kopieras eller laddas ner från webbplatsen till en hårddisk. Men dessa data kan begäras och analyseras kostnadsfritt genom COSMAS II [1] -systemet , vars användare måste registrera sig och samtycka till att använda uppgifterna uteslutande för icke-kommersiella, utbildningsändamål. COSMAS II låter dig använda DeReKo-fallet för att lösa specifika vetenskapliga problem.

Anteckningar

↑ COSMAS II-system . Datum för åtkomst: 17 oktober 2013. Arkiverad från originalet 22 oktober 2013. (obestämd)

Se även

Ryska nationalkorpus

Litteratur

Korpuser av det tyska språket // Utbildningsportal för det ryska språkets nationella korpus. Arkiverad från originalet den 4 april 2014.
Listor över främmande språkkorpus // Internationell språkvetenskaplig community online.
Kupietz, M. & C. Belica & H. Keibel & A. Witt. The German Reference Corpus DeReKo: A primordial sample for linguistic research // I: Calzolari, N. et al. (red.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010) (s. 1848–1854). Valletta, Malta: European Language Resources Association (ELRA)..
Kupietz, M. & H. Keibel. Mannheim German Reference Corpus (DeReKo) som grund för empirisk lingvistisk forskning // I: Working Papers in Corpus-based Linguistics and Language Education, No. 3 (s. 53–59). Tokyo: Tokyo University of Foreign Studies (TUFS).

Länkar

Korpuslingvistik
engelska korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language brittiska nationella kåren Brun Corpus Buckeye Corpus Cambridge English Corpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Bank Talat engelska korpus TID VerbNet Wellington Corpus of Spoken New Zealand English
Ryskspråkiga korpus	Allmänt internetkorpus för det ryska språket Ryska nationalkorpus Öppen korpus av det ryska språket SinTagRus Tübingen Corpus of the Russian Language Uppsala korpus av ryska texter Helsingfors kommenterad korpus av det ryska språket
Corpora på andra språk	Bijankhan Corpus BARN Korpus av kroatiska Kroatiska nationella korpus Europarl Corpus Mannheim Corpus tyska Hamshahri Corps Polsk National Corpus Neo-assyriska textkorpusprojekt Koranens korpus Scottish National Corpus Sloveniens nationella korpus samtalsbank Tatoeba Teheran Monolingual Corpus Textaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGA