Frekvensordbok

En frekvensordbok (eller frekvenslista) är en uppsättning ord på ett visst språk (eller underspråk) tillsammans med information om deras frekvens . Ordboken kan sorteras efter frekvens, alfabetiskt (sedan för varje ord kommer dess frekvens att anges), efter grupper av ord (till exempel de första tusen av de vanligaste orden, följt av det andra, etc.), efter typitet ( ord som är frekventa för de flesta texter) etc. Frekvenslistor används för språkundervisning, skapande av nya vokabulärer, datorlingvistiska tillämpningar, språktypologiforskning m.m.

Bygga frekvenslistor

Vanligtvis är frekvensordböcker byggda på grundval av textkorpus : en uppsättning texter tas som är representativ för språket som helhet, för något ämnesområde eller en given författare (se Griboyedovs Frekvensordbok ) och ordformer, lemman och delar tal extraheras från det (de senare extraheras om korpusen har morfologiska markeringar).

Problemen med att skapa frekvenslistor är:

Alla dessa problem beror på det faktum att språket ur statistisk synvinkel är ett stort antal sällsynta händelser ( Zipfs lag ), som ett resultat av vilka ett litet antal ord förekommer mycket ofta, och de allra flesta ord har en mycket låg frekvens. Frekvensen av ordet och (det vanligaste ordet i det ryska språket) är cirka 10 gånger högre än frekvensen för ordet om , vilket i sin tur förekommer 100 gånger oftare än sådana vanliga ord som resor, ålderdom eller mode .

Hobbitmetaforen kan användas för att beskriva frekvensskurar (Adam Kilgarriff använde ursprungligen det relativt sällsynta engelska ordet whelk, en typ av havsmollusk , engelsk  whelk ): om det finns flera texter i korpusen om hobbitar kommer detta ord att användas i nästan varje mening. Som ett resultat kommer dess frekvens i dessa texter att vara jämförbar med frekvensen av funktionella ord, men i frekvenslistan för en stor korpus, som inkluderar sådana texter, kommer detta ord att ha en otroligt hög rang. Sådana frekvensskurar kan uppskattas med användning av variationskoefficienten : förhållandet mellan standardavvikelsen och medelfrekvensen .

Skrovjämförelse

Frekvensordböcker ger möjlighet att jämföra två korpus för att bestämma de ord som är mest karakteristiska för var och en. Ibland anger ordböcker "absolut frekvens", det vill säga antalet förekomster av ett ord i en korpus. På grund av det faktum att storleken på korpus kan vara olika, anges vanligtvis den relativa frekvensen (vanligtvis bara kallad "frekvens"), det vill säga förhållandet mellan antalet förekomster av ett ord i en korpus och det totala antalet ord i en korpus. Ibland anges båda värdena. Relativ frekvens anges ibland som en procentandel, i ppm eller i delar per miljon ( engelska  ipm, instanser per miljon ord ). Till exempel har ordet och en frekvens på 0,03 (3 %, eller 30‰, eller cirka 30 000 ord per miljon, ordet ålderdom  - 0,00003 (0,003 %, eller 0,03‰, eller cirka 30 ord per miljon).

För att bestämma uppsättningen nyckelord som skiljer en korpus från en annan kan du använda olika statistiska mått: chi -square , likelihood -ratio test , etc.  

Se även

Litteratur

Länkar