Mannheim German Corpus (COSMAS corpora eller DeReKo) är en samling moderna tyskspråkiga texter som underhålls av Institutet för det tyska språket i Mannheim , Tyskland. Korpusen innehåller olika typer av texter: vetenskaplig och populärvetenskaplig litteratur, ett stort antal tidningstexter, skönlitteratur, etc. Den representerar världens största elektroniska samling av moderna tyskspråkiga texter och är ett verktyg för korpuslingvistik .
Mannheims tyska korpus har flera alternativa namn som German Reference Corpus, IDS corpora, COSMAS corpora. Sedan 2004 har kårens officiella namn varit Deutsches Referenzkorpus (DeReKo).
Skapandet av en korpus vid German Language Institute (IDS) har en lång historia. Redan 1964 skapade Paul Grebe och Ulrich Engel Mannheim Corps 1, ett projekt som 1967 framgångsrikt hade samlat in cirka 2,2 miljoner vanligt använda ord i tyskt skriftspråk. Sedan dess har den elektroniska textdatabasen kompletterats och utökats genom ett antal efterföljande korpusinsamlingsprojekt. År 2013 är DeReKo en av de viktigaste resurserna i världen för att lära sig tyska . Tillväxttakten för volymen av korpusen är cirka 300 miljoner ord per år. Med "studiet av det tyska språket i dess moderna användning" som huvudmål har IDS-institutet en policy för att säkerställa en långsiktig drift av DeReKo.
DeReKos nyckelfunktioner är:
Huvudmålet med DeReKo är att fungera som en praktisk grund för det vetenskapliga studiet av modern tysk skrift. En av de viktiga principerna är att fokus ligger på språket i sig och inte på informationen som det förmedlar.
Korpusen innehåller olika typer av texter: skönlitteratur, vetenskaplig och populärvetenskaplig litteratur, tidskrifter etc. Det finns också en underkorpus av muntligt tal (vardagstal, inspelningar av tal från talare av olika dialekter, etc.). Resursen innehåller en korpusbaserad databas med tyska ordkombinationer.
Denna korpus innehåller 6 huvudsubkorpuser:
Korpus av skriftligt tal omfattar 3 Mannheim korpus, såväl som många andra (fiktion, historisk korpus, journalistik, samlade verk av Karl Marx och Friedrich Engels , Thomas Mann korpus, intervjukorpus, etc.).
Volymen på korpusen är mer än 1846 miljoner ordanvändningar. Till skillnad från andra välkända korpus (som t.ex. British National Corpus ) syftar DeReKo till att täcka den maximala möjliga volymen av texter, och inte att balansera deras sammansättning: texternas fördelning efter skapelsetid eller texttyp överensstämmer inte med till förutbestämda procentsatser.
DeReKo har lemmatisering och morfologisk markering , men bara för några av texterna. Det finns dock flera helt konsekventa annoteringar i arkivet på olika språknivåer (åtminstone på delarna av tal och syntaxnivåer). På grund av korpusens stora storlek är varken manuell anteckning eller manuell styrning av automatisk anteckning möjlig. Som ett resultat är den förväntade graden av inexakthet mycket hög, särskilt där det finns språkligt komplexa fenomen.
De grundläggande textenheterna i DeReKo- korpusen åtföljs av speciell informationsmetadata . En viktig princip för en korpus är att denna metadata måste vara tillgänglig. Vilken specifik information som är tillgänglig beror på datakällan och typen av text.
Huvudkategorier av metadata:
På grund av upphovsrätts- och licensbegränsningar kan DeReKos arkivdatabaser inte kopieras eller laddas ner från webbplatsen till en hårddisk. Men dessa data kan begäras och analyseras kostnadsfritt genom COSMAS II [1] -systemet , vars användare måste registrera sig och samtycka till att använda uppgifterna uteslutande för icke-kommersiella, utbildningsändamål. COSMAS II låter dig använda DeReKo-fallet för att lösa specifika vetenskapliga problem.
Korpuslingvistik | |
---|---|
engelska korpus |
|
Ryskspråkiga korpus |
|
Corpora på andra språk |
|
Organisationer |