Zipfs lag

Zipfs lag ("rank-frekvens") är en empirisk regelbundenhet i fördelningen av frekvensen av ord i ett naturligt språk : om alla ord i ett språk (eller bara en ganska lång text ) är ordnade i fallande ordning efter deras frekvens av använder, så kommer frekvensen för det n :e ordet i en sådan lista att vara ungefär omvänt proportionell mot dess ordningsnummer n (den så kallade rangordningen för detta ord, se ordningsskala ). Till exempel är det näst mest använda ordet ungefär dubbelt så vanligt som det första, det tredje är tre gånger så sällsynt som det första och så vidare.

Skapande historia

Författaren till upptäckten av regelbundenheten är den franske stenografen Jean-Baptiste Estoup ( fr. Jean-Baptiste Estoup ), som beskrev den 1908 i sitt verk "Range of stenograph" [1] . Lagen användes först för att beskriva fördelningen av stadsstorlekar av den tyske fysikern Felix Auerbach i hans arbete "The Law of Population Concentration" 1913 [2] och är uppkallad efter den amerikanske lingvisten George Zipf , som 1949 aktivt populariserade detta mönster , som först föreslår att använda den för att beskriva fördelningens ekonomiska krafter och social status [2] .

En förklaring av Zipfs lag baserad på korrelationsegenskaperna hos additiva Markov-kedjor (med stegminnesfunktion) gavs 2005 [3] .

Zipfs lag beskrivs matematiskt av Pareto-fördelningen . Det är en av de grundläggande lagarna som används inom infometri .

Tillämpningar av lagen

George Zipf 1949 visade först fördelningen av människors inkomster efter deras storlek: den rikaste personen har dubbelt så mycket pengar som den näst rikaste, och så vidare. Detta påstående visade sig vara sant för ett antal länder (England, Frankrike, Danmark, Holland, Finland, Tyskland, USA) under perioden 1926 till 1936 [2] .

Denna lag fungerar också i förhållande till fördelningen av stadssystemet: staden med den största befolkningen i något land är dubbelt så stor som den näst största staden, och så vidare [2] . Om du ordnar alla städer i ett visst land i listan i fallande befolkningsordning, kan varje stad tilldelas en viss rang, det vill säga numret som den får i den här listan. Samtidigt följer populationens storlek och rang ett enkelt mönster uttryckt av formeln [4] :

P_{n}={\frac {P_{1}}{n}}

var är befolkningen i staden av n :e rangen; - befolkningen i landets huvudstad (1:a rang). $P_{n}$ $P_1$

Empiriska studier stödjer detta påstående [5] [6] [7] [8] [9] .

1999 beskrev ekonomen Xavier Gabet Zipfs lag som ett exempel på en maktlag : om städer växer slumpmässigt med samma standardavvikelse, så kommer fördelningen vid gränsen att minska till Zipfs lag [10] .

Enligt slutsatserna från forskare i förhållande till tätortsbebyggelse i Ryska federationen , i enlighet med Zipfs lag [11] :

de flesta städer i Ryssland ligger över den ideala Zipf-kurvan, så den förväntade trenden är en fortsatt minskning av antalet och befolkningen i medelstora och små städer på grund av migration till stora städer;
följaktligen har fler än 7 miljoner städer (St. Petersburg, Novosibirsk, Jekaterinburg, Nizhny Novgorod, Kazan, Chelyabinsk, Omsk), som ligger under den ideala Zipf-kurvan, en betydande befolkningstillväxtreserv och förväntar sig befolkningstillväxt;
det finns risker för avfolkning av den första staden i rangen (Moskva), eftersom den andra staden (S:t Petersburg) och efterföljande storstäder ligger långt efter den ideala Zipf-kurvan på grund av en minskning av efterfrågan på arbetskraft med en samtidig ökning av levnadskostnader, inklusive först och främst kostnaden för köp och hyresbostäder.

Kritik

Den amerikanske bioinformatikern Wentian Li föreslog en statistisk förklaring av Zipfs lag, vilket bevisade att en slumpmässig sekvens av tecken också lyder denna lag [12] . Författaren drar slutsatsen att Zipfs lag uppenbarligen är ett rent statistiskt fenomen som inte har något med textens semantik att göra och som har en ytlig relation till lingvistik.

I allmänna termer är beviset för denna teori följande. Sannolikheten för en slumpmässig förekomst av ett ord med längden n i en kedja av slumpmässiga tecken minskar med tillväxten av n i samma proportion som rankningen av detta ord i frekvenslistan (ordningsskalan) ökar. Därför är produkten av ett ords rangordning och dess frekvens en konstant .

Se även

Anteckningar

↑ Alain Lelu. Jean-Baptiste Estoup och ursprunget till Zipfs lag: en stenograf med ett vetenskapligt sinne (1868-1950) // Boletín de Estadística e Investigación Operativa. - 2014. - T. 30 , nr 1 . - S. 66-77 .
↑ 1 2 3 4 Zipf GK Mänskligt beteende och principen om minsta ansträngning . - Addison-Wesley Press, 1949. - S. 484-490 . — 573 sid.
↑ KE Kechedzhy, OV Usatenko, VA Yampol'skii. Rangfördelningar av ord i additiva Markov-kedjor i många steg och Zipf-lagen // Phys . Varv. E.. - 2004. - Vol. 72 . — P. 046138(1)-046138(6) . — arXiv : fysik/0406099 .
↑ Zanadvorov V.S., Zanadvorova A.V. Stadens ekonomi: en introduktionskurs . ISBN 5-94628-099-6 . Akademisk bok (2003). Hämtad 31 augusti 2015. Arkiverad från originalet 25 september 2015. (obestämd)
↑ Jiang B., Jia T. Zipfs lag för alla naturliga städer i USA: ett geospatialt perspektiv . International Journal of Geographical Information Science 25(8), 1269-1281 (2011). Hämtad 31 augusti 2015. Arkiverad från originalet 20 september 2014. (obestämd)
↑ Kali R. Staden som en gigantisk komponent: en slumpmässig grafisk inställning till Zipfs lag. - Applied Economics Letters 10: 717-720(4), 2003.
↑ Axtell, Robert L. Zipf distribution av amerikanska företagsstorlekar (nedlänk) . American Association for the Advancement of Science (2001). Arkiverad från originalet den 23 september 2015. (obestämd)
↑ Rozenfeld H., Rybski D., Andrade J.S., Batty M., Stanley. Lagar för befolkningstillväxt (inte tillgänglig länk) . Proc. Nat. Acad. sci. 105, 18702-18707 (2008). Arkiverad från originalet den 16 februari 2015. (obestämd)
↑ O'Sullivan A. Stadens ekonomi. - M. : Infra-M, 2002. - S. 122. - 706 sid. — ISBN 5-16-000673-7 .
↑ Gabaix, Xavier. Zipfs lag för städer: en förklaring . Quarterly Journal of Economics 114(3): 739–67 (1999). Hämtad 31 augusti 2015. Arkiverad från originalet 24 februari 2021. (obestämd)
↑ Fattakhov R.V., Stroev P.V. Rumslig utveckling av Ryssland: Moderna utmaningar och bildandet av punkter för ekonomisk tillväxt (otillgänglig länk) . Financial University under Ryska federationens regering (22 juni 2015). Arkiverad från originalet den 25 september 2015. (obestämd)
↑ Wentian Li. Zipfs lag fungerar även för slumpmässiga texter = Slumpmässiga texter uppvisar Zipfs-lagliknande ordfrekvensfördelning. - Santa Fe Institute, 1991. - S. 8 . Arkiverad från originalet den 24 oktober 2022.

Ordböcker och uppslagsverk	Stor katalanska Britannica (online)
I bibliografiska kataloger	GND : 4190937-9