Zipfs lag ("rank-frekvens") är en empirisk regelbundenhet i fördelningen av frekvensen av ord i ett naturligt språk : om alla ord i ett språk (eller bara en ganska lång text ) är ordnade i fallande ordning efter deras frekvens av använder, så kommer frekvensen för det n :e ordet i en sådan lista att vara ungefär omvänt proportionell mot dess ordningsnummer n (den så kallade rangordningen för detta ord, se ordningsskala ). Till exempel är det näst mest använda ordet ungefär dubbelt så vanligt som det första, det tredje är tre gånger så sällsynt som det första och så vidare.
Författaren till upptäckten av regelbundenheten är den franske stenografen Jean-Baptiste Estoup ( fr. Jean-Baptiste Estoup ), som beskrev den 1908 i sitt verk "Range of stenograph" [1] . Lagen användes först för att beskriva fördelningen av stadsstorlekar av den tyske fysikern Felix Auerbach i hans arbete "The Law of Population Concentration" 1913 [2] och är uppkallad efter den amerikanske lingvisten George Zipf , som 1949 aktivt populariserade detta mönster , som först föreslår att använda den för att beskriva fördelningens ekonomiska krafter och social status [2] .
En förklaring av Zipfs lag baserad på korrelationsegenskaperna hos additiva Markov-kedjor (med stegminnesfunktion) gavs 2005 [3] .
Zipfs lag beskrivs matematiskt av Pareto-fördelningen . Det är en av de grundläggande lagarna som används inom infometri .
George Zipf 1949 visade först fördelningen av människors inkomster efter deras storlek: den rikaste personen har dubbelt så mycket pengar som den näst rikaste, och så vidare. Detta påstående visade sig vara sant för ett antal länder (England, Frankrike, Danmark, Holland, Finland, Tyskland, USA) under perioden 1926 till 1936 [2] .
Denna lag fungerar också i förhållande till fördelningen av stadssystemet: staden med den största befolkningen i något land är dubbelt så stor som den näst största staden, och så vidare [2] . Om du ordnar alla städer i ett visst land i listan i fallande befolkningsordning, kan varje stad tilldelas en viss rang, det vill säga numret som den får i den här listan. Samtidigt följer populationens storlek och rang ett enkelt mönster uttryckt av formeln [4] :
,var är befolkningen i staden av n :e rangen; - befolkningen i landets huvudstad (1:a rang).
Empiriska studier stödjer detta påstående [5] [6] [7] [8] [9] .
1999 beskrev ekonomen Xavier Gabet Zipfs lag som ett exempel på en maktlag : om städer växer slumpmässigt med samma standardavvikelse, så kommer fördelningen vid gränsen att minska till Zipfs lag [10] .
Enligt slutsatserna från forskare i förhållande till tätortsbebyggelse i Ryska federationen , i enlighet med Zipfs lag [11] :
Den amerikanske bioinformatikern Wentian Li föreslog en statistisk förklaring av Zipfs lag, vilket bevisade att en slumpmässig sekvens av tecken också lyder denna lag [12] . Författaren drar slutsatsen att Zipfs lag uppenbarligen är ett rent statistiskt fenomen som inte har något med textens semantik att göra och som har en ytlig relation till lingvistik.
I allmänna termer är beviset för denna teori följande. Sannolikheten för en slumpmässig förekomst av ett ord med längden n i en kedja av slumpmässiga tecken minskar med tillväxten av n i samma proportion som rankningen av detta ord i frekvenslistan (ordningsskalan) ökar. Därför är produkten av ett ords rangordning och dess frekvens en konstant .
![]() | |
---|---|
I bibliografiska kataloger |