Corpus of Modern American English

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 6 september 2021; kontroller kräver 3 redigeringar .

The Corpus of Contemporary American English  ( COCA ) är en elektronisk korpus av texter skapad av professorn i korpuslingvistik Mark Davis från Brigham Young University 2000-2003, baserad på Time magazine -texter skrivna sedan 1923 [1] .

Det är den största (450 miljoner ord) korpusen av texter på amerikansk engelska och den enda fritt tillgängliga korpusen på detta språk, som inkluderar ett brett utbud av texter av olika genrer . Den består av över 160 000 texter, inklusive 20 miljoner ord varje år från 1990 till 2011. Det är den mest använda strukturerade korpusen av texter, med cirka 10 000 användare varje månad.

Komposition

Other Davis Corps

TIME Magazine corpus

Korpusen består av över 275 000 artiklar från TIME magazines arkiv Arkiverad 20 oktober 2013 på Wayback Machine och innehåller över 100 miljoner ord från texter skrivna mellan 1923 och 2006. TIME Magazine Corpus är integrerat i ett gemensamt system av andra korpora skapade av Mark Davis (som också inkluderar Corpus of Historical American English (COHA), Corpus del Español eller Corpus of American Soap Operas databaser) [2] .

Hur det fungerar

Korpusens arkitektur är byggd på principen för andra projekt av Mark Davis, såsom Corpus of Contemporary American English (COCA) . Det finns en central n-gram databas som innehåller information om vart och ett av de hundra miljoner orden i korpusen. De är kopplade till tabeller som möjliggör analys av kasus, samt separata tabeller för synonymer, lemman och former som visas med ett ord över tid.

Texterna märktes upp med CLAWS-taggaren (Constituent Likelihood Automatic Word-tagging System) [3] . Samma program användes i skapandet av andra Mark Davis Corps såväl som British National Corps .

Hårdvaran för korpusen har valts för att ge extremt snabba sökningar - vanligtvis tar det mindre än en sekund för även de mest komplexa frågorna som innehåller ordform, orddel, frekvens och kasus.

Använder

TIME Magazine Corpus låter dig söka efter både enskilda ord och fraser, såväl som specifika grammatiska former eller synonyma serier, samt se sammanhanget för deras användning och förändring i användningsfrekvens.

Korpusen låter dig utforska:

Åtkomst

Tillgång till byggnaden är gratis.

Registrering krävs med tillhandahållande av en e-postadress eller information om användarens organisation och status, beroende på vilken åtkomstnivå som krävs. Det finns fem åtkomstnivåer i tre kategorier: inte forskare, semi-forskare, forskare. Alla skiljer sig åt i mängden information som tillhandahålls per dag (om en nybörjare kan göra 100 förfrågningar per dag kan en professor eller doktorand som är registrerad som forskare söka 600 gånger under samma tidsperiod).

Se även

Anteckningar

  1. Kauhanen, Henri The Corpus of Contemporary American English: Bakgrund och historia . VARIENG (21 mars 2011). Hämtad 13 oktober 2011. Arkiverad från originalet 12 januari 2012.
  2. Lista över korpus skapade av Mark Davis Arkiverad 7 november 2013 på Wayback Machine . Enligt Google Analytics i mars 2012. Arkiverad 6 november 2013 på Wayback Machine använder mer än 100 000 unika användare denna databas varje månad.
  3. CLAWS orddeltaggare för engelska . Hämtad 27 oktober 2013. Arkiverad från originalet 2 april 2019.

Länkar