Koefficienten för lexikal mångfald (CLR, engelsk lexical diversity, LD ) är en kvantitativ egenskap hos texten, som återspeglar graden av rikedom hos ordboken när man konstruerar en text av en given längd. Indikatorn är baserad på förhållandet mellan antalet enskilda lexikaliska enheter ( lemman , engelska typer ) och antalet förekomster av dem i texten (textformer , engelska tokens ) .
Beräknat enligt formeln
,var
Lexiskt rik text har en hög koefficient för lexikal mångfald, det vill säga det maximala antalet unika enheter per enhet av textvolym, lexikalt dålig text tenderar att upprepa samma lexem, på grund av vilket dess lexikala mångfald reduceras. Följande begränsning bör beaktas vid beräkning av KLR: medan antalet textformer är potentiellt oändligt och bara kan öka när uppsättningen av analyserad textdata expanderar, är antalet tokens fortfarande ändligt. Därför är det rationellt att endast beräkna CLR för texter med begränsad volym. Inom beräkningslingvistik har flera lösningar på detta problem föreslagits [1] .
Nära CLR är koefficienten för lexikal densitet för texten ( eng. lexical density ), som uttrycker förhållandet mellan oberoende delar av tal i texten och det totala antalet ord. Mer lexikalt täta blir därför texter som använder mindre hjälpordförråd. Det är möjligt att beräkna lexikaliska täthetskoefficienter både för oberoende delar av tal i allmänhet och separat för substantiv, adjektiv, verb, adverb.
TTR ( English type/token ratio ) är det enklaste och mest kritiserade sättet att beräkna den lexikaliska diversitetskoefficienten, som inte tar hänsyn till effekten av textlängdseffekten. TTR ska ha introducerats i vetenskapligt bruk 1957 i arbetet av en specialist på linguodidactic M. Templin [2] . Till exempel är TTR i det engelska uttrycket jag måste köpa lite mjölk, eftersom jag inte har någon mjölk (”Jag måste köpa mjölk eftersom jag inte har mjölk”) är låg och är 0,73 (endast 8 lexem per 11 ordanvändning) , 8/11), och, till exempel, i frasen Jag har slut på mjölk, så jag måste köpa lite ("Jag fick slut på mjölk, jag måste köpa det") TTR är redan högre (TTR = 10/11 = 0,91).
TTR kan beräknas genom att tolka begreppet typ på olika sätt : det kan betyda
1) ett lexem i dess helhet av dess ordformer ( lemma ): till exempel lexemskjortan för formerna skjorta, skjorta, skjorta, skjortor , etc. .,
2) en separat ordform eller en uppsättning homonyma ordformer eller till och med homonymer i förhållande till individuella förekomster av dessa ordformer i texten (”textformer”): till exempel hus för textformer hemma, hemma .
Den första lösningen är språkligt korrekt, men den ökar kraven på graden av automatisering av beräkningen av koefficienten, eftersom den antyder förmågan hos den morfologiska analysatorn att utföra markering av orddelar och lemmatisering. Den andra är sårbar ur teoretisk synvinkel, avslöjar ett beroende av ett visst språks morfologi (vilket till exempel minskar dess tillförlitlighet vid jämförelse av original- och översatta texter), men är lätt att automatisera.
Metoden VocD ( vocabulary diversity ) föreslogs av D. Malvern och hans kollegor [3] och är en förbättrad version av TTR som jämnar ut effekterna av textlängd. Metoden är baserad på metoden för slumpmässigt urval av fragment från texten med en längd på 35 till 50 textformer och beräkning av TTR för dem, följt av medelvärdesberäkning av de resulterande graferna.
Koefficienten för lexikal mångfald visar sig vara en viktig mätparameter i studier om stilistik, diskursanalys, översättningsstudier (när man jämför original och översatta texter), lingvistik för barns tal.