Brittiska nationella kåren

brittiska nationella kåren
URL www.natcorp.ox.ac.uk
Webbplatstyp Vetenskaplig litteratur
Språk) brittisk engelska
Serverns plats
Författare Oxford University Press , Longman , W. & R. Chambers
Början av arbetet 1994

British National Corpus ( BNC ) är en korpus på 100 miljoner ord av skriven och talad brittisk engelska från ett brett spektrum av källor [1] [2] [3] . Korpusen täcker brittisk engelska från det sena 1900-talet, representerad av en mängd olika genrer , och är tänkt att vara representativ för tidens typiska talade och skrivna brittiska engelska.  

Historik

Tre förlag ( Oxford University Press som huvudbidragsgivare, och Longman och W. & R. Chambers ), två universitet ( Oxford och Lancaster ) och British Library [2] samarbetade i projektet för att skapa BNC .

Skapandet av BNC började 1991 under ledning av BNC-konsortiet och avslutades 1994. Efter 1994 tillkom inga nya exempel, men BNC genomgick mindre förändringar innan den andra (BNC World, 2001) och tredje (BNC) släpptes XML Edition, 2007) utgåvor [4] .

Bakgrund

Enligt beräkningslingvisters åsikt var BNC tänkt att vara en korpus av modern, vid tidpunkten för sammanställningen, som förekommer i verkligt språk , vare sig det är talat eller skrivet . Som ett resultat har BNC sammanställts till en datorvänlig form för att möjliggöra automatisk sökning och bearbetning med korpuslingvistiska metoder . En av skillnaderna mellan BNC och den tidens befintliga korpus var öppenheten hos data för användning inte bara i vetenskaplig forskning, utan också för kommersiella och utbildningsändamål [3] .

Skaparna begränsade korpusen till endast brittisk engelska , utan avsikt att inkludera exempel på användningen av World English . Detta gjordes delvis för att en betydande del av kostnaden för projektet betalades av den brittiska regeringen, som naturligtvis var intresserad av att stödja dokumentationen av landets språkliga mångfald [3] .

Att bygga en korpus av BNC:s oöverträffade storlek krävde finansiering från både kommersiella och akademiska institutioner. BNC- data blev i sin tur sedan tillgängliga för kommersiellt bruk och vetenskaplig forskning [3] .

Beskrivning

BNC är en enspråkig korpus, eftersom den bara innehåller prover av brittisk engelska, även om ibland ord och fraser från andra språk förekommer i texterna. Detta är en synkron korpus, eftersom den innehåller exempel på användningen av språket under endast en tidsperiod - slutet av 1900-talet. Av denna anledning kan BNC inte fungera som en källa till data om historien om utvecklingen av brittisk engelska [4] . Från början syftade de som var involverade i insamlingen av skriftliga data att göra BNC till en balanserad korpus och sökte följaktligen efter och inkluderade data från olika källor [3] .

Komponenter och innehåll

Skrivkorpus

90 % av korpusen består av exempel på användning av skriftspråket . Dessa exempel hämtades från regionala och nationella tidningar, vetenskapliga tidskrifter och tidskrifter inom olika vetenskapliga områden, skönlitteratur och journalistik , både från publicerat och opublicerat material (såsom broschyrer, brev, studentuppsatser, manus, tal), såväl som från många andra källor [5] .

Konversationskorpus

De återstående 10 % av BNC-materialet är användningsmönster för talat språk som presenterades och registrerades med praktisk transkription .

Konversationskorpusen består av två delar. Den demografiska delen innehåller en transkribering av spontana samtal som ägt rum under verkliga förhållanden med deltagande av frivilliga från olika åldersgrupper, regioner och sociala skikt. Dessa samtal ägde rum i en mängd olika situationer, inklusive affärs- eller regeringsmöten och diskussioner på radiosändningar eller över telefon [5] . Detta gjordes för att ta hänsyn till både den demografiska spridningen av det talade språket och den språkligt betydande mångfalden av språket på grund av sammanhanget [6] .

Den andra delen av samtalskorpusen innehåller kontextkänsliga prover, såsom transkriptioner av inspelningar som förbereds under särskilda möten eller evenemang.

Alla originalinspelningar som transkriberats för införande i BNC har placerats i British Library Sound Archive . De flesta av bidragen finns tillgängliga på webbplatsen för Oxford University Phonetic Laboratory .

Markup

BNC-paketet innehåller partiella markeringar . För att göra detta, när man skapade skrovet, användes CLAWS-märkningssystemet. Detta system gick igenom ett antal modifieringar innan den sista mottogs - CLAWS4, som användes i ärendet. CLAWS1-systemet var baserat på en dold Markov-modell och kunde korrekt markera 96 ​​% till 97 % av vilken text som helst. När du flyttar från CLAWS1 till CLAWS2 har behovet av manuell textförberedelse innan du startar uppmärkningsprocessen försvunnit. CLAWS4 innehåller förbättringar som mer kraftfull lexikal disambiguering och stavningsvariation. Det fortsatta arbetet med uppmärkningssystemet har fokuserat på att öka framgångsfrekvensen för automatisk uppmärkning och minska det manuella arbetet med att förbereda texter innan uppmärkningen påbörjas genom att introducera ytterligare programvara för att ersätta manuellt arbete [2] [7] .

Senare lades uppmärkning till för att indikera tvetydigheten hos vissa ord och uttryck. Samtidigt, trots förmågan hos CLAWS4 att automatiskt bestämma taltyper och ordbetydelser, kvarstod behovet av manuell markering, eftersom andra språk än engelska inte stöds i CLAWS4 [8] [9] .

Underkroppar

Två subkorpora (BNC-dataundergrupper) släpptes under namnen BNC Baby och BNC Sampler. Båda dessa underkroppar kan erhållas genom att beställa dem från BNC:s webbplats [10] .

BNC Baby är en underkorpus av BNC som består av fyra exempeluppsättningar med en miljon ord vardera. Orden i varje uppsättning motsvarar en specifik genrekategori . En uppsättning prover innehåller transkriptioner av konversationer, medan de återstående tre uppsättningarna innehåller prov på skrivna texter från facklitteratur , skönlitteratur och tidningar . Samtidigt bevaras uppmärkningen som är tillgänglig i BNC [11] i subkorpusen . Den senaste (tredje) upplagan släpptes i XML-format [12] .

BNC Sampler är en underkropp som består av två delar. Den första delen innehåller skriftliga data, den andra delen innehåller vardagstal. Varje del innehåller en miljon ord. BNC Sampler användes ursprungligen för att förbättra BNC-markeringsprocessen, vilket så småningom ledde till publiceringen av BNC World. Under projektets gång har BNC Sampler förbättrats i takt med att erfarenhet och kunskap om uppmärkning har vuxit. Som ett resultat skapades BNC Sampler som vi känner till idag [13] .

Teknisk information

Korpusen är markerad enligt rekommendationerna från Text Encoding Initiative (TEI) konsortiet och inkluderar fullständiga språkliga anteckningar och kontextuell information [14] .

Få åtkomst till funktioner

För att använda CLAWS4 Partial Marking Tool-kroppen måste du köpa en licens [15] . Alternativt kan du använda uppmärkningstjänsten från Lancaster University [16] .

BNC själv kan köpas med både personlig och kollektiv licens. BNC-utgåvan är tillgänglig i XML-format och levereras med sökmotorprogramvaran Xaira . Paketet kan beställas via BNC:s webbplats [17] .

För XML-utgåvan av BNC utvecklades en corpus manager BNCweb och är tillgänglig online. Dess gränssnitt är lätt att använda och stöder sökning och analys av korpusmaterial [18] .

Materialbehörighetsproblem

BNC var den första korpusen av sin storlek tillgänglig för en bred publik. Kanske berodde detta på standardformer av avtal mellan upphovsrättsinnehavare och konsortiet å ena sidan och mellan användare av korpusen och konsortiet å andra sidan. Skaparna av korpusen försökte ingå ett standardlicensavtal med ägarna av immateriella rättigheter , vars en av bestämmelserna var införandet av material i korpusen utan betalning av några monetära avgifter. En sådan överenskommelse underlättades av ärendets originalitet och unika karaktär [6] .

Det har dock visat sig svårt att behålla de bidragsgivarnas anonymitet utan att förringa betydelsen av deras arbete. Alla ogenomskinliga anspelningar på författarens identitet togs bort från korpusmaterialet. Samtidigt övervägdes möjligheten att ersätta riktiga namn med andra namn för att bevara anonymiteten, vilket dock ansågs olämpligt [6] .

Dessutom ombads författarna initialt om tillåtelse att endast inkludera transkriberade versioner av sitt tal, men inte att inkludera själva talet. Även om sådant tillstånd kan begäras igen, kan sökningen efter de ursprungliga författarna kompliceras av den pågående anonymiseringsprocessen. Samtidigt blev faktorer tydliga som förvärrade upphovsrättsinnehavarnas ovilja att donera sitt material till korpusen: fullständiga texter uteslöts från korpusen, vilket ledde till bristande motivation för upphovsrättsinnehavare att distribuera information genom korpusen (särskilt pga. till dess icke-kommersiella grund) [6] .

Nackdelar och begränsningar

För allmän klassificering av texter

Från och med 2001 saknade BNC fortfarande en klassificering av skrivna texter på annat sätt än efter sfär (tidningar, skönlitteratur, etc.), och en klassificering av talade texter på annat sätt än efter kontext och demografisk eller socioekonomisk klass för deltagarna i samtalet. Till exempel inkluderades ett stort urval av fiktiva textprover ( romaner , noveller , dikter , etc.) i korpusen , men information om deras undergenrer saknades i provrubriken och BNC-dokumentationen. För forskare var kunskapen om genrediversitet praktiskt taget värdelös, eftersom det inte var lätt för dem att skaffa verk av den önskade subgenren [19] .

2002, med lanseringen av en ny version av korpusen - BNC World Edition, gjordes ett försök att lösa klassificeringsproblemet. Förutom sfärer för talade och skrivna texter identifierades 70 klasser, vilket gjorde det möjligt för forskare att extrahera texter av en viss genre från korpusen [20] .

Men även efter dessa innovationer har implementeringen av klassificering fortfarande problem, eftersom tilldelningen av en genre eller subgenre till en text är komplicerad av olika subtiliteter. Indelningen i klasser för talad data är mindre uppenbar än för skriftlig data, på grund av den mycket större variationen av ämnen som är involverade i konversationer. Det finns också problem och oklarheter med definitionen av en undergenre av vilken genre som helst, eftersom uppdelningen i undergenrer i korpusen var förutbestämd i standardiseringssyfte [20] .

Klassificeringsfel och vilseledande titlar

När korpusen skapades var vissa texter felaktigt kategoriserade, ofta på grund av missvisande rubriker. Till exempel är många texter med ordet "föreläsning" i titeln faktiskt klassrumsdiskussioner eller utbildningsseminarier som involverar små grupper av människor, eller populära föreläsningar riktade till en allmän publik (snarare än föreläsningar för universitetsstudenter ) [ 19] . En anledning till felklassificering är att genre och subgenre kan anges för de flesta texter, men inte alla. Dessutom kan texten i hela sin längd hänvisa till olika subgenrer, kan falla under definitionen av olika genrer [20] .

Brist på talat material

Förhållandet mellan skriftligt och talat material i BNC är 10:1 [6] . Detta beror på att kostnaden för att samla in, transkribera och digitalisera en miljon ord av verkliga tal är minst 10 gånger högre än kostnaden för att lägga till en miljon ord från tidningar. Det finns dock en uppfattning att eftersom muntligt och skriftligt tal är lika viktiga bör de presenteras i lika stora proportioner i korpusen [6] .

BNC är inte särskilt användbar för att studera vissa funktioner i det talade språket, eftersom endast praktiska transkriptioner ingår i det , och paralingvistiska särdrag av kommunikation indikeras mycket ytligt [21] .

Begränsade möjligheter att studera lexikaliska relationer

Relationer mellan vissa lexikaliska enheter är för tvetydiga för att kunna upptäckas effektivt med hjälp av sökfrågor. Varje försök att söka efter attributiva klausuler kommer att ge användaren felaktiga uppgifter, vilket ger exempel på användningen av frågepronomen och ordet "det". Dessutom är det i allmänhet inte möjligt att programmässigt identifiera bisatser där pronomen utelämnas (som t.ex. i "mannen jag såg"). Av samma anledning är det svårt att avgöra användningen av vissa semantiska och pragmatiska kategorier (tvivel, oenighet, erkännande) [21] .

Begränsad beskrivning av situationer

Enligt materialet i korpusen är det möjligt att avgöra om ett tal hålls av en man eller en kvinna, men det är omöjligt att utifrån dem ta reda på om personen som håller talet tilltalar en man eller en kvinna [21] .

Ej tillämpligt för studier av speciella typer av texter

BNC är en mycket mångsidig och blandad korpus, så den är inte lämplig för studier av några mycket specifika typer eller genrer av texter, eftersom en sådan typ eller genre sannolikt är extremt begränsad och texter av denna typ inte är lätta att hitta i korpusen. Till exempel finns det väldigt få affärsbrev eller inspelade regeringsmöten i BNC, så för att studera deras detaljer är det önskvärt att samla en mindre korpus som endast består av texter av dessa typer [21] .

Använda BNC

Undervisning i engelska

Det finns två huvudsakliga sätt att använda korpusen i språkundervisningen: skapande av metodiskt material och lärande genom analys [21] .

Läromedel

Förläggare och forskare kan använda proverna från korpusen för att skapa rekommendationer för språkinlärning, läroplaner och annat läromedel.

Till exempel användes BNC av en grupp japanska forskare som ett verktyg i utvecklingen av ett webbaserat system för att lära sig engelska inom vissa områden (affärer, medicin) [22] . Systemet gav eleverna tillgång till de vanligaste meningsmallarna för att lära sig av dessa exempel. Källan till sådana förslag i systemet var BNC (förslagen åtföljdes av hänvisningar till BNC för att bevisa att ansökan var verklighet).

Lärande genom analys

Korpusanalys kan direkt integreras i språkundervisningsmetoder. I det här fallet får eleverna möjlighet att självständigt klassificera korpusens språkliga data och därför bilda sig en uppfattning om mönstren och förmågan hos det språk som studeras baserat på denna klassificering. Data från korporna som används i denna undervisningsmetod är relativt små och kan därför leda till en generalisering av idéer om språket som studeras, vilket kan ha lite att göra med det verkliga tillståndet [21] .

Övrigt

BNC kan användas som referenskälla när man skapar och tolkar texter, till exempel när man studerar användningen av enskilda ord i olika sammanhang. Detta gör att du kan bekanta dig med olika sätt att använda samma ord [21] .

Förutom språkrelaterad information kan BNC också fungera som en källa för encyklopedisk data som brittisk kultur och stereotyper som är populära i Storbritannien [21] .

Översättningsordböcker

I Indien 2012 användes mer än 12 000 ord och fraser från BNC för att utveckla 22 översättningsordböcker från lokala språk till engelska. Utvecklingen genomfördes som en del av rörelsen för att reformera utbildningssystemet och bevara språken hos små folk i Indien [23] .

Testning och utvärdering

BNC är på grund av sin storlek utmärkt att använda som material för mjukvarutestning [24] . Till exempel användes det för att testa Markup Language Specifications för Text Encoding Initiative (TEI). Dessutom användes 20 miljoner ord från BNC för att utvärdera underkategoritilldelningssystemet i Senseval [25] ordbetydningsanalysprojekt .

Vetenskaplig forskning

  • Samlokaliseringsbevis från British National Corpus [26]

En studie från 2000 av Hofmann och Lehmann som tittade på mekanismerna som gör det möjligt för människor att fritt hantera sin enorma uppsättning av kollokationer . I synnerhet har två mekanismer studerats, varav den ena gör att kollokationer alltid är redo att användas, och den andra tillåter människor att enkelt expandera kollokationer grammatiskt eller syntaktisk för att anpassa sig till en specifik situation. För dessa ändamål har sällsynta kombinationer av ord extraherats från BNC [26] .

  • Non-sentential Ytterances: A Corpus Study [27]

En studie från 2002 av Fernandez och Ginzburg, som undersökte dialoger fyllda med yttranden som endast slutade intuitivt och som inte innehöll någon information utanför sitt sammanhang. I grund och botten är detta typiska korta svar på frågor. Under studiens gång användes fragment av BNC-data för att sammanställa en fullständig och teoretiskt sund klassificering av sådana uttalanden [27] .

Naturlig språkbehandling

BNC används ofta i arbete inom området morfologisk bearbetning (en gren av naturlig språkbehandling ). I synnerhet används data från BNC för att testa noggrannheten, tillförlitligheten och hastigheten hos verktyg för bearbetning av morfologiska markörer på brittisk engelska [28] . Dessutom har data från BNC använts för att skapa ett omfattande arkiv med information om morfologiska markörer på engelska [28] .

Erkännande

Det är allmänt accepterat bland beräknings- och korpuslingvister att BNC är en enastående prestation, en korpus av enorm storlek. Tack vare de enorma ansträngningarna att samla in och vidarebearbeta en stor mängd data har BNC blivit en av de mest värdefulla korpora. BNC anses vara en modellkorpus från vilken efterföljande korpus utvecklas (t.ex. amerikanska , tjeckiska och polska nationella korpus) [29] [30] .

BNC2014

I juli 2014 tillkännagavs BNC av Cambridge University Press och Centre for Corpus Approach to the Social Sciences vid Lancaster University att arbetet pågick för att skapa en ny brittisk National Corpus [31] . Det första steget i det gemensamma projektet för dessa två institutioner var sammanställningen av en ny vardaglig korpus av brittisk engelska från början till mitten av 2010-talet [32] .

Se även

Anteckningar

  1. Lou Burnard et al, 1998 , XIII.
  2. 1 2 3 Geoffrey Leech et al, 1994 , sid. 47-63.
  3. 1 2 3 4 5 Geoffrey Leech, 1993 , sid. 9-15.
  4. 1 2 Vad är BNC? Arkiverad 7 april 2022 på Wayback Machine . Hämtad 12 mars 2012.
  5. 1 2 British National Corpus Arkiverad 4 mars 2016 på Wayback Machine . Hämtad 12 mars 2012.
  6. 1 2 3 4 5 6 Lou Burnard, 2002 .
  7. Geoffrey Leech 1994, 1994 , sid. 622-628.
  8. Leech, Geoffrey; Smith, Nicholas The British National Corpus (version 2) med förbättrad taggning i ordklass . UCREL, Lancaster University, Storbritannien (2000). Hämtad 17 mars 2012. Arkiverad från originalet 5 april 2016.
  9. Leech, Geoffrey; Smith, Nicholas Automatisk POS-taggning av Corpus . UCREL, Lancaster University, Storbritannien (2000). Hämtad 17 mars 2012. Arkiverad från originalet 5 april 2016.
  10. BNC-produkter . Hämtad 18 mars 2012. Arkiverad från originalet 24 mars 2016.
  11. Burnard, Lou Referensguide för BNC-baby (2003). Tillträdesdatum: 18 mars 2012. Arkiverad från originalet 4 mars 2016.
  12. Ny upplaga av BNC Baby tillgänglig . Hämtad 19 mars 2012. Arkiverad från originalet 4 juni 2016.
  13. BNC Sampler: XML-upplaga (2008). Tillträdesdatum: 18 mars 2012. Arkiverad från originalet 4 mars 2016.
  14. Burnard, Lou Användarreferensguide för British National Corpus (1995). Tillträdesdatum: 18 mars 2012. Arkiverad från originalet 2 april 2016.
  15. Skaffa en licens för CLAWS-taggaren . UCREL, Lancaster University, Storbritannien. Hämtad 17 mars 2012. Arkiverad från originalet 5 mars 2016.
  16. CLAWS-märkningstjänsten . UCREL, Lancaster University, Storbritannien. Hämtad 17 mars 2012. Arkiverad från originalet 7 april 2016.
  17. Hur man beställer . Hämtad 17 mars 2012. Arkiverad från originalet 23 oktober 2015.
  18. Peter Lang, 2008 .
  19. 12 David Lee , 2001 .
  20. 1 2 3 Lee, David ANMÄRKNINGAR SOM MEDFÖLJER BNC WORLD EDITION (BIBLIOGRAPHICAL) INDEX (länk ej tillgänglig) (2002). Hämtad 17 mars 2012. Arkiverad från originalet 26 september 2012. 
  21. 1 2 3 4 5 6 7 8 Guy Aston, 1998 .
  22. Danny Minn et al, 2005 .
  23. Tvåspråkiga ordböcker för att främja Indiens modersmål  (14 mars 2012). Arkiverad från originalet den 31 december 2010. Hämtad 17 mars 2012.
  24. Vad kan jag göra med BNC? . Hämtad 18 mars 2012. Arkiverad från originalet 13 mars 2016.
  25. Korhonen, Anna UTVÄRDERINGSRESURSER för engelska subcategorization Acquisition Systems (otillgänglig länk) (2002). Hämtad 18 mars 2012. Arkiverad från originalet 13 december 2012. 
  26. 1 2 Sebastian Hoffmann & Hans-Martin Lehmann, 2000 .
  27. 1 2 Raquel Fernandez & Jonathan Ginzburg, 2002 .
  28. 12 Guido Minnen et al, 2001 .
  29. František Čermák, 2003 .
  30. Richard Xiao, 2008 .
  31. Tony McEnery på Twitter Arkiverad 5 mars 2016 på Wayback Machine . Hämtad 17 mars 2015.
  32. "Centre för Corpus Approaches to Social Science" Arkiverad 15 september 2016 på Wayback Machine . Hämtad 17 mars 2015.

Litteratur

  • Lou Burnard, Guy Aston. BNC-handboken: utforska British National Corpus. - Edinburgh: Edinburgh University Press, 1998. - P. xiii. - ISBN 0-7486-1055-3 .
  • Peter Lang. Korpuslingvistik med BNCweb: en praktisk guide. - Peter Lang Publishing Group, 2008. - ISBN 978-3-631-56315-1 .

Länkar