Zipfs lag

Zipfs lag ("rank-frekvens") är en empirisk regelbundenhet i fördelningen av frekvensen av ord i ett naturligt språk : om alla ord i ett språk (eller bara en ganska lång text ) är ordnade i fallande ordning efter deras frekvens av använder, så kommer frekvensen för det n :e ordet i en sådan lista att vara ungefär omvänt proportionell mot dess ordningsnummer n (den så kallade rangordningen för detta ord, se ordningsskala ). Till exempel är det näst mest använda ordet ungefär dubbelt så vanligt som det första, det tredje är tre gånger så sällsynt som det första och så vidare.

Skapande historia

Författaren till upptäckten av regelbundenheten är den franske stenografen Jean-Baptiste Estoup ( fr.  Jean-Baptiste Estoup ), som beskrev den 1908 i sitt verk "Range of stenograph" [1] . Lagen användes först för att beskriva fördelningen av stadsstorlekar av den tyske fysikern Felix Auerbach i hans arbete "The Law of Population Concentration" 1913 [2] och är uppkallad efter den amerikanske lingvisten George Zipf , som 1949 aktivt populariserade detta mönster , som först föreslår att använda den för att beskriva fördelningens ekonomiska krafter och social status [2] .

En förklaring av Zipfs lag baserad på korrelationsegenskaperna hos additiva Markov-kedjor (med stegminnesfunktion) gavs 2005 [3] .

Zipfs lag beskrivs matematiskt av Pareto-fördelningen . Det är en av de grundläggande lagarna som används inom infometri .

Tillämpningar av lagen

George Zipf 1949 visade först fördelningen av människors inkomster efter deras storlek: den rikaste personen har dubbelt så mycket pengar som den näst rikaste, och så vidare. Detta påstående visade sig vara sant för ett antal länder (England, Frankrike, Danmark, Holland, Finland, Tyskland, USA) under perioden 1926 till 1936 [2] .

Denna lag fungerar också i förhållande till fördelningen av stadssystemet: staden med den största befolkningen i något land är dubbelt så stor som den näst största staden, och så vidare [2] . Om du ordnar alla städer i ett visst land i listan i fallande befolkningsordning, kan varje stad tilldelas en viss rang, det vill säga numret som den får i den här listan. Samtidigt följer populationens storlek och rang ett enkelt mönster uttryckt av formeln [4] :

,

var  är befolkningen i staden av n :e rangen;  - befolkningen i landets huvudstad (1:a rang).

Empiriska studier stödjer detta påstående [5] [6] [7] [8] [9] .

1999 beskrev ekonomen Xavier Gabet Zipfs lag som ett exempel på en maktlag : om städer växer slumpmässigt med samma standardavvikelse, så kommer fördelningen vid gränsen att minska till Zipfs lag [10] .

Enligt slutsatserna från forskare i förhållande till tätortsbebyggelse i Ryska federationen , i enlighet med Zipfs lag [11] :

Kritik

Den amerikanske bioinformatikern Wentian Li föreslog en statistisk förklaring av Zipfs lag, vilket bevisade att en slumpmässig sekvens av tecken också lyder denna lag [12] . Författaren drar slutsatsen att Zipfs lag uppenbarligen är ett rent statistiskt fenomen som inte har något med textens semantik att göra och som har en ytlig relation till lingvistik.

I allmänna termer är beviset för denna teori följande. Sannolikheten för en slumpmässig förekomst av ett ord med längden n i en kedja av slumpmässiga tecken minskar med tillväxten av n i samma proportion som rankningen av detta ord i frekvenslistan (ordningsskalan) ökar. Därför är produkten av ett ords rangordning och dess frekvens en konstant .

Se även

Anteckningar

  1. Alain Lelu. Jean-Baptiste Estoup och ursprunget till Zipfs lag: en stenograf med ett vetenskapligt sinne (1868-1950)  // Boletín de Estadística e Investigación Operativa. - 2014. - T. 30 , nr 1 . - S. 66-77 .
  2. ↑ 1 2 3 4 Zipf GK Mänskligt beteende och principen om minsta ansträngning . - Addison-Wesley Press, 1949. - S.  484-490 . — 573 sid.
  3. KE Kechedzhy, OV Usatenko, VA Yampol'skii. Rangfördelningar av ord i additiva Markov-kedjor i många steg och Zipf-lagen   // Phys . Varv. E.. - 2004. - Vol. 72 . — P. 046138(1)-046138(6) . — arXiv : fysik/0406099 .
  4. Zanadvorov V.S., Zanadvorova A.V. Stadens ekonomi: en introduktionskurs . ISBN 5-94628-099-6 . Akademisk bok (2003). Hämtad 31 augusti 2015. Arkiverad från originalet 25 september 2015.
  5. Jiang B., Jia T. Zipfs lag för alla naturliga städer i USA: ett geospatialt perspektiv . International Journal of Geographical Information Science 25(8), 1269-1281 (2011). Hämtad 31 augusti 2015. Arkiverad från originalet 20 september 2014.
  6. Kali R. Staden som en gigantisk komponent: en slumpmässig grafisk inställning till Zipfs lag. - Applied Economics Letters 10: 717-720(4), 2003.
  7. Axtell, Robert L. Zipf distribution av amerikanska företagsstorlekar (nedlänk) . American Association for the Advancement of Science (2001). Arkiverad från originalet den 23 september 2015. 
  8. Rozenfeld H., Rybski D., Andrade J.S., Batty M., Stanley. Lagar för befolkningstillväxt (inte tillgänglig länk) . Proc. Nat. Acad. sci. 105, 18702-18707 (2008). Arkiverad från originalet den 16 februari 2015. 
  9. O'Sullivan A. Stadens ekonomi. - M. : Infra-M, 2002. - S. 122. - 706 sid. — ISBN 5-16-000673-7 .
  10. Gabaix, Xavier. Zipfs lag för städer: en förklaring . Quarterly Journal of Economics 114(3): 739–67 (1999). Hämtad 31 augusti 2015. Arkiverad från originalet 24 februari 2021.
  11. Fattakhov R.V., Stroev P.V. Rumslig utveckling av Ryssland: Moderna utmaningar och bildandet av punkter för ekonomisk tillväxt (otillgänglig länk) . Financial University under Ryska federationens regering (22 juni 2015). Arkiverad från originalet den 25 september 2015. 
  12. Wentian Li. Zipfs lag fungerar även för slumpmässiga texter  = Slumpmässiga texter uppvisar Zipfs-lagliknande ordfrekvensfördelning. - Santa Fe Institute, 1991. - S. 8 . Arkiverad från originalet den 24 oktober 2022.