De bizarre wet zegt dat voor sommige data het eerste getal 30% van de keren een 1 is, terwijl de 2 maar in 18% van de gevallen als eerste opduikt en de 3 nog minder. Hoe kan dat toch?

Wiskunde, de één heeft er trauma’s aan overgehouden op de middelbare school, de ander doet niets lievers dan het ontrafelen van de taal waarmee we de wereld om ons heen proberen te begrijpen. Tot deze laatste categorie behoorde de Canadees-Amerikaanse wiskundige en sterrenkundige Simon Newcomb (1835-1909). Hij stond bekend als een expert op het gebied van planetaire theorieën en het afleiden van astronomische constante. Zijn levensverhaal was verder dan ook bijzonder en zeker meer aandacht waard, maar we zullen het toch houden bij zijn, voor dit artikel, meest interessante ontdekking. Hij zag namelijk in 1881 dat de eerste bladzijden van logaritmetafels (tabellen met logaritmen) er minder netjes uitzagen dan de bladzijden verder op in deze logaritmetafels. Door de aard van logaritmes (inverse van exponentiële functies), betekent dit dat getallen die beginnen met het cijfer 1 veel vaker opgezocht werden door zijn collega’s. Dit is eigenaardig. Intuïtief zou je namelijk denken dat alle cijfers even vaak zouden moeten voorkomen als je er vanuit gaat dat zo’n logaritmetafel enorm vaak gebruikt is en je dus spreekt over enorm veel willekeurige getallen die hiermee opgezocht zijn. Er zou dus meer achter moeten zitten…

Simon Newcomb. Afbeelding: Harris & Ewing (via Wikimedia Commons).

Hoewel Newcomb de eerste was die dit ontdekt had, is de wet uiteindelijk vernoemd naar een werknemer bij General Electric, Frank Benford (1883-1948). Dit kwam waarschijnlijk omdat het artikel dat Newcomb schreef niet wiskundig genoeg was en niet snel genoeg rondging. Benford daarentegen, herontdekte Newcombs observatie en kreeg wel de nodige aandacht. Hij verzamelde veel observaties van fysische constanten, metingen, wortels van getallen, straatadressen, populaties, rivieren, oppervlakten, etc. en kwam met de volgende tabel:


Tabel met grootheden die voldoen aan de wet van Benford. Afbeelding: A. Jamain (2001). “Benford’s law”. Imperial College of London Department of Mathematics, Ecole Nationale Supérieure d’Informatique et de Mathématiques Appliquées de Grenoble.

Hier zie je per grootheid het percentage gegeven van hoe vaak het corresponderende getal begint met het cijfer 1, 2, 3, etc. Je ziet hier dat getallen ongeveer in 30% van de gevallen met 1 beginnen, terwijl dit voor 2 maar ongeveer 18% van de gevallen is en vervolgens de daarop volgende getallen tot en met 9 op volgorde steeds minder vaak voorkomen.

Formule
Dit vertaalt zich tot de formule die je hiernaast ziet en waarbij ‘d’ staat voor ‘digit’ (cijfer in het Nederlands). Als je voor d een getal uit de natuurlijke getallen 1,2,3,..,9 kiest, kom je op de exacte kans uit.

Niet in elke dataset
Deze wet van Benford komt echter niet voor in elke willekeurige dataset. Benford merkte in datasets op dat hoe willekeuriger en hoe groter het bereik van de grootte van de getallen zijn, hoe dichter de kansverdeling bij ‘zijn’ wet van Benford lag. Een andere belangrijke observatie is dat datasets die voldoen aan de wet van Benford onafhankelijk zijn van schaling. Als voorbeeld: stel je hebt een financiële dataset in dollars waarop de wet van Benford werkt, dan moet deze zelfde dataset, omgezet naar euro’s, nog steeds de wet van Benford volgen.

Niet te verklaren
Het mysterieuze aan de wet van Benford is dat er nog geen eenduidig wiskundige verklaring is gevonden voor het feit dat sommige datasets zich houden aan deze wet. Dit maakt de interpretatie lastig. Er is wel al veel over geschreven en het is zeker de moeite waard om meer over de verklaringen te lezen.

Nut
De wet van Benford wordt sinds de jaren 90 nuttig ingezet voor fraudedetectie. In gevallen dat de wet van Benford zou moeten of kunnen optreden, maar dit niet doet, kan dit duiden op fraude. Toch moet er goed worden opgelet, omdat niet elke dataset hoeft te voldoen. Het onderzoek hiernaar heeft geleid tot digitale analyse, waarin niet alleen de wet van Benford gebruikt wordt, maar ook andere tests.

HYG-database
In 2014 verscheen er een artikel waarin de wet van Benford ook ontdekt was in de HYG database. Deze data is een verzameling van de Hipparcos cataloog, Yale Bright Star Catalog (5e editie) en de Gliese Catalog of Nearby Stars (3e editie). Het gaat hier dan om de data van sterrenstelsels en van afstanden van sterren (zie grafieken hieronder).

Wet van Benford in de HYG data. Blauw is de wet van Benford en rood zijn de metingen. Afbeelding: T. Alexopoulos, S. Leontsinis (2014). “Benford’s Law and the Universe”. arXiv:1401.5794 [physics.pop-ph].

Er wordt in dit artikel nog geen verklaring gegeven voor het verschijnen van de wet van Benford. Twee jaar later verscheen er een artikel waarin wel een poging werd gedaan dit fenomeen te verklaren. Hier concluderen de schrijvers dat in het geval van de afstanden tot sterrenstelsels mogelijk de wet van Hubble achter de wet van Benford zou kunnen zitten. De wet van Hubble zegt ons dat twee sterrenstelsels zich van elkaar verwijderen met een snelheid die evenredig is met de onderlinge afstand tussen de stelsels. Dit betekent dat hoe verder een sterrenstelsel van ons vandaan staat, hoe sneller het zich van ons vandaan beweegt. Om intuïtief iets beter te begrijpen waarom expansie invloed zou kunnen hebben op de frequenties van de eerste cijfers van afstanden, kun je je voorstellen dat om van het cijfer 1 naar 2 te gaan, een getal 100% moet toe nemen, van 2 naar 3 is dit een toename van 50%, van 3 naar 4 is dit 33% enzovoorts. Dit geldt ook voor 100 naar 200 of van 10000 naar 20000. Op deze manier komen sterrenstelsels met een afstand beginnend met het getal 1 vaker voor en daarna 2 enzovoorts…
Een soortgelijke redenatie zoals met sterrenstelsels gaat volgens hen op voor sterren binnen onze Melkweg, doordat een sterrenstelsel intern ook zou kunnen uitdijen. Dit gaat echter in tegen de huidige sterrenkunde, omdat sterrenkundigen het er over eens zijn dat door gravitatie er geen inwendige expansie is in sterrenstelsels. Dit mag daarom wel bestempeld worden als een erg vreemde conclusie in een wetenschappelijk artikel uit een wetenschappelijk tijdschrift!

Als vervolg op deze analyse van de HYG data ga ikzelf de komende maanden bij de ESA werken met de nieuwe Gaia DR2 data. Hier ga ik kijken of voor deze 1.3 miljard nieuwe metingen van sterren binnen onze Melkweg, de wet van Benford nog altijd te voorschijn komt. Dit ga ik verder analyseren en wie weet kom ik over een tijdje in een later artikel terug op de resultaten en kan ik hopelijk met een betere verklaring of andere suggesties komen dan het intern uitdijen van de Melkweg.

Jurjen de Jong (1993) heeft een bachelor wiskunde en bachelor natuurkunde behaald in Utrecht en een master wiskundige natuur-en sterrenkunde in Gent afgerond. En nu rondt hij de master-na-master in Space Studies in Leuven af met een stage bij de ESA. Jurjen leest graag over de verschillende ontdekkingen ontwikkelingen op wetenschapsgebied en door er over te schrijven hoopt hij zijn kennis te delen met een groter publiek. Later hoopt hij een baan in de ruimtevaartsector te krijgen. Eerder verscheen van Jurjens hand al dit interessante artikel waarin hij uitzoekt of het nodig is dat ook de ruimtevaart groener wordt. Ook zocht hij voor Scientias.nl uit of de ruimtelift werkelijk toekomst heeft. Recent publiceerde hij ook een artikel over de Parker Solar Probe: een ruimtesonde die binnenkort de zon gaat ‘aantikken’.