bespiegelingen over Verkavelingsvlaams en kuddegedrag
30-08-2009
Zipf & Pareto
Er is nog een reden waarom de de Wet van Zipf en die van Pareto vaak in één adem genoemd worden: beide zijn in wezen te beschouwen als complementair aan elkaar. Dat wordt haarfijn uit de doeken gedaan in een passage uit Zipf, Power-laws, and Pareto - a ranking tutorial van Lada A. Adamic, dat te vinden is op de volgende url: www.hpl.hp.com/research/idl/papers/ranking/ranking.html
Bedenk dat de Zipfdistributie de frequentie geeft van het i-de item in een (van groot naar klein geordende) rangschikking; Pareto geeft het aantal items waarvan de score voor een bepaalde numerische variabele hoger ligt dan een gegeven waarde w. Het punt is nu om de Zipfdistributie op te vatten als een wetmatigheid over scores in het algemeen in plaats van alleen maar over frequenties. De Wet van Zipf kwantificeert dan de waarde wi van het item dat in een bepaalde verzameling op plaats i gerangschikt staat. Dat laatste laat zich nu natuurlijk eveneens lezen als: i items uit de verzameling hebben een waarde die groter of gelijk is aan wi. Dat is echter precies de definitie van de Pareto-verdeling! Adamic legt één en ander uit aan de hand van de populatiegroottes van wereldsteden. Als met de Wet van Zipf uitgedrukt kan worden dat de populatie van de i-de grootste stad ter wereld wi bedraagt, dan volgt daaruit dat i steden een populatiegrootte hebben van wi of meer, wat dan weer geformuleerd kan worden in een Pareto-verdeling. Kortom, Zipf beschrijft wi in functie van i; Pareto beschrijft net omgekeerd i in functie van wi.
Voor het geval dat de bovenstaande link ooit zou verdwijnen, staat een pdf-versie van het artikel van Adamic hier ten slotte nog in bijlage.
Machtswetten zijn vandaag de dag hip. Ze zijn al geruime tijd het coolste onder de zon, getuige het nieuwe speeltje dat vele populaire wetenschappers erin ontdekt hebben. De laatste jaren zijn er maar liefst 4 boeken verschenen die rechtstreeks handelen over machtswetten en de implicaties die ze voor ons dagelijks leven hebben. Dat zijn (deze blog begint hoe langer hoe meer beangstigend veel op een bibliografie te lijken - waar natuurlijk dringend iets aan gedaan moet worden, zoals bijvoorbeeld uit dit bericht al moge blijken):
- Buchanan, Mark (2000). Ubiquity. - Ball, Philip (2004). Critical Mass. - Anderson, Chris (2006). The Long Tail. - Taleb, Nassim Nicholas (2007). The Black Swan.
De reden voor zoveel aandacht is ongetwijfeld het feit dat machtswetten alomtegenwoordig lijken: overal waar men kijkt met de ogen van een statisticus duiken wel machtswetten op: fenomenen zoals woordfrequenties, inkomensverdelingen, stadspopulaties, magnitudes van aardbevingen, en nog vele andere laten zich beschrijven volgens de verdeling van een machtswet. Blijkbaar kan niets ontsnappen aan de beruchte 'tirannie van de machtswet'.
In haar meest algemene vorm drukt een machtswet de frequentie P(x) van een bepaalde numerische grootheid x uit als een dalende exponentiële functie van x zelf:
P(x) ∝ x-α
waarin de schaalexponent α de enige parameter is die voor elk verschijnsel apart empirisch geschat kan/moet worden.
Net als alle waarschijnlijkheidsverdelingen zijn er van machtswetten 2 smaken: discrete en continue, en van elk is er een bepaalde prototypische machtswet. Het prototype van de discrete machtswet is de Wet van Zipf, genoemd naar de Harvardse taalkundige George Kingsley Zipf en al in de vorige berichten besproken. De Wet van Zipf stelt dat als je de woorden van een taal rangschikt van frequent naar infrequent en ze op basis daarvan rangnummers geeft, de frequentie Pi van elk woord i gerelateerd is aan het rangnummer ri van dat woord als volgt:
Pi ∝ ri-α
De prototypische continue machtswet is de Wet van Pareto, naar de Italiaanse econoom Vilfredo Pareto, die het aantal mensen met een inkomen hoger dan x uitdrukt in functie van dat inkomen x:
P(X>x) ∝ x-α
(Het - minieme - verschil is dat het hier in concreto gaat om een cumulatieve waarschijnlijkheidsverdeling). De Wet van Pareto is in de geschiedenis beter bekend geworden als de 80/20-regel, die zegt dat 80% van alle rijkdom in handen is van (maar) 20% van de bevolking. Een andere naam is natuurlijk het in de vorige berichten eveneens aangehaalde Matteüseffect (ten minste, zoals Deleeck de term opvat; toch heeft volledigheidshalve ook de oorspronkelijke betekenis die Merton eraan hechtte - te weten: het aantal keren dat een wetenschappelijk artikel geciteerd wordt - een machtswet: dat is de Wet van Bradford).
Daarbij moet het toch maar weer lukken dat de twee prototypische gevallen die er van machtswetten zijn, beide betrekking hebben op de theorie van het Verkavelingsvlaams als gevolg van de welvaartstoename in Vlaanderen na de Tweede Wereldoorlog.