Waarom statistiek niet te vertrouwen is

..en we haar toch gebruiken.

Onlangs verscheen het geweldige nieuwe boek van Ben Orlin met de titel ‘Wiskunde is overal‘ (Uitgeverij Lannoo). In het boek neemt hij de lezer mee op een meeslepende reis in de wonderlijke wereld van de wiskunde. En wij mogen je een voorproefje geven. Over de vraag welk hoofdstuk we wilden uitlichten, hoefden we daarbij niet lang na te denken. Het werd het hoofdstuk dat handelt over iets waar velen zich op de middelbare school vruchteloos het hoofd over hebben gebroken en dat – als we Orlin mogen geloven – totaal onbetrouwbaar is: statistiek.

“De interessantste kritiek op statistiek richt zich niet op de oneerlijkheid van de statisticus, maar op de wiskunde zelf,” aldus Orlin. “We kunnen de waarde van statistieken opkrikken door hun onvolmaaktheid te begrijpen, door te zien wat elke statistiek wil zeggen en wat ze doelbewust vergeet.” Hoogste tijd dus voor een lesje in statistiek (en haar serieuze tekortkomingen).

Het gemiddelde
Hoe werkt het? Tel alle beschikbare data bij elkaar op. Deel het totaal door het aantal data.
Wanneer gebruik je het? Het gemiddelde vervult een basisbehoefte in de statistiek: je bepaalt de ‘centrale tendens’ van een groep. Hoe lang is dat basketbalteam? Hoeveel ijsjes verkoop je per dag? Hoe heeft de klas het bij het proefwerk gedaan? Als je een hele populatie met één waarde probeert samen te vatten, is het gemiddelde een logische eerste kandidaat.
Wat mankeert eraan? Het gemiddelde kijkt alleen maar naar het totaal en het aantal mensen dat bijdraagt aan dat totaal. Als je wel eens een piratenschat heb verdeeld, ken je het probleem. Er zijn veel manieren om de buit te verdelen. Hoeveel heeft elk individu bijgedragen? Iedereen evenveel of één persoon heel veel? Als ik een hele pizza eet en jij niets krijgt, is het dan eerlijk om te zeggen dat wij ‘gemiddeld’ een halve pizza hebben gegeten? Je kunt je tafelgasten vertellen dat de ‘gemiddelde mens’ één eierstok en één teelbal heeft, maar sterft het gesprek dan niet een pijnlijke dood? (Ja, ik heb het geprobeerd.) Mensen maken zich druk om de verdeling, niet om het gemiddelde.

Gelukkig zijn gemiddelden wel gemakkelijk te berekenen. Stel dat je toetscijfers 87, 88 en 96 zijn (dit vak is een eitje voor je!). Wat is dan het gemiddelde? Overbelast je neuronen niet met optellen en delen; maak een nieuwe verdeling. Neem zes punten van je laatste toets; geeft drie ervan aan de eerste en twee aan de laatste toets. Nu heb je scores van 90, 90 en 90 en nog één punt over. Als je dat eenzame puntje onder de drie toetsen verdeelt, kom je op een gemiddelde van 90,33, zonder je hersenen te kraken.

De mediaan
Hoe werkt het? De mediaan is het middelste lid van je databestand. De helft van je data ligt eronder, de helft erboven.
Wanneer gebruik je het? Net als het gemiddelde beschrijft de mediaan de centrale tendens van een populatie, maar hij is ongevoelig voor uitschieters. Neem het gezinsinkomen. In de Verenigde Staten verdient een rijk gezin tientallen (zelfs honderden) keren meer dan een arm gezin. Het gemiddelde, dat suggereert dat elk gezin een gelijk aandeel in het totale inkomen heeft, wordt gefopt door deze uitzonderlijke waarden en leidt af van de meerderheid van de waarden. Het gemiddelde is $75.000. De mediaan neutraliseert de invloed van de uitschieters. Hij noemt het middelste gezinsinkomen van het land, het perfecte middelpunt: de helft van de gezinnen is rijker dan dit, de helft is armer. In de Verenigde Staten ligt de mediaan op bijna $58.000. Dit geeft een beter beeld van het ‘typische’ gezin.
Wat mankeert eraan? Je weet dat de helft van de data boven je mediaan ligt, en de helft eronder. Maar hoe ver liggen deze punten ervandaan? Een kleuterstapje of een wereldreis verder? Je kijkt alleen naar het middelste stuk van de taart, ongeacht hoe groot of klein de andere stukken ook zijn. Dit kan je op een dwaalspoor brengen.

Een durfkapitalist die in nieuwe bedrijven investeert, verwacht dat de meeste ervan failliet zullen gaan. Die ene zeldzame klapper compenseert alle kleine verliezen. Maar deze dynamiek ontgaat de mediaan. ‘De uitkomst is doorgaans negatief’, krijst hij. ‘Missie afblazen!’ Intussen bouwt een verzekeringsmaatschappij zorgvuldig een portefeuille op in de wetenschap dat die zeldzame ramp jaren van bescheiden winst kan wegvagen. Maar de mediaan heeft geen oog voor de kans op een ramp. ‘Hé, het resultaat is doorgaans positief’, juicht hij. ‘Doorgaan!’ Daarom zijn mediaan en het gemiddelde samen interessant. De mediaan zegt iets over de doorsneewaarde; het gemiddelde zegt iets over de totale waarde. Samen vertellen ze een vollediger verhaal dan elk apart.

De modus
Hoe werkt het? Het is de meest voorkomende, hipste, populairste waarde. Wat als geen enkele waarde meer dan één keer voorkomt? Dan kun je de data in categorieën groeperen en de gewoonste categorie ‘de modale categorie’ noemen.
Wanneer gebruik je het? De modus schittert bij opiniepeilingen en bij het ordenen van niet-numerieke data. Als je de favoriete kleur van mensen wilt achterhalen, kun je niet ‘de kleuren optellen’ om een gemiddelde te berekenen. Of bij verkiezingen drijf je kiezers tot waanzin als je de stemmen ordent van ‘meest progressief’ tot ‘meest conservatief’ en degene die op de mediaan zit tot winnaar uitroept.
Wat mankeert eraan? De mediaan negeert het totaal. Het gemiddelde negeert de verdeling ervan. En de modus? Wel, die negeert het totaal, de verdeling ervan en zowat al de rest. De modus zoekt de meest voorkomende waarde. Maar ‘meest voorkomend’ betekent niet ‘representatief’. Het modale salaris in de Verenigde Staten is nul. Dat komt niet doordat de meeste Amerikanen blut en werkloos zijn, maar doordat loonverdieners zich bevinden in een spectrum van $1 tot $100 miljoen, terwijl alle mensen zonder loon in dezelfde categorie (die van $0) vallen. De modus zegt in dit geval dus niets over de Verenigde Staten. Je kunt natuurlijk ‘modale categorieën’ gebruiken (bijvoorbeeld de categorie ‘van $0 tot $1000), maar dat lost het probleem maar ten dele op. Je plaatst dan immers opvallend veel macht in de handen van degenen die de data presenteren en die de categoriegrenzen in hun eigen voordeel kunnen bepalen. Afhankelijk van hoe ik de grenzen trek, kan ik beweren dat het modale gezin in de Verenigde Staten $10.000 tot $20.000 verdient (met stappen van 10.000) of $20.000 tot $40.000 (met stappen van 20.000) of $38.000 tot $92.000 (volgens de belastingschijven). Hetzelfde databestand, dezelfde statistiek. En toch verandert het beeld compleet, afhankelijk van het gekozen kader.

Het percentiel
Hoe werkt het? De mediaan deelt je databestand precies in tweeën. Het percentiel is een mediaan met een dimmer. Het 50ste percentiel is de mediaan zelf (de helft van de data erboven, de helft eronder). Maar je kunt ook andere percentielen kiezen. Bij het 90ste percentiel zit 10% van je data boven dat punt, en 90% eronder. Bij het 3de percentiel zit slechts 3% van je data onder dat punt, en 97% erboven.
Wanneer gebruik je het? Percentielen zijn handig, flexibel en perfect voor de favoriete hobby van de mens: dingen ordenen. Daarom geven standaardtoetsen hun scores vaak als percentiel. De uitslag ‘ik heb 72% van de vragen goed’ is weinig informatief. Waren dit gemene instinkers of simpele kleutervragen? Maar ‘ik zit op het 80ste percentiel’ toont precies hoe je hebt gepresteerd: beter dan 80% van de deelnemers en slechter dan 20%.
Wat mankeert eraan? Net als medianen vertellen percentielen je alleen hoevéél data er boven of beneden een bepaald punt liggen. In de financiële wereld meet je met percentielen het risico van een investering. Je vormt je een beeld van de spreiding van alle mogelijke resultaten en kiest dan een percentiel (gewoonlijk het 5de), dat je ‘value at risk’ noemt (VaR). Hiermee leg je de kans op het slechtste scenario vast, maar in feite doe je het in 5% van de gevallen nog slechter. VaR vertelt niets over hoeveel slechter: gaat het om centen of om miljarden?
Je kunt de diverse mogelijkheden beter visualiseren door meer VaR-percentielen te controleren, zoals 3, 1 en 0,1, maar een percentiel belichaamt per definitie niet de allerergste verliezen. Het allerslechtste scenario blijft dan ook altijd net onzichtbaar op de loer liggen.

Percentageverschil
Hoe werkt het? Je vermeldt niet alleen maar een verschil, maar deelt dat eerst door het oorspronkelijke totaal.
Wanneer gebruik je het? Percentageverschil is een kwestie van dingen in perspectief plaatsen. Het toont winst en verlies als een deel van het geheel. Neem een winst van € 100. Als ik met € 200 ben begonnen, bedraagt mijn groei maar liefst 50% en dans ik de horlepiep. Maar als ik al € 20.000 had, bedraagt mijn groei slechts 0,5%. Dan neem ik genoegen met een bescheiden vreugdehupje. Dit is cruciaal als je een kwantiteit in de loop van de tijd ziet groeien. De Amerikanen van 70 jaar geleden waren verbijsterd geweest over een groei van het bbp met $500 miljard in 2017. Als ze hadden gehoord dat de groei 3% bedroeg, hadden ze hun schouders opgehaald.
Wat mankeert eraan? Perspectief is geweldig, maar in hun poging context te bieden kunnen percentageverschillen het perspectief ook doen verdwijnen. Toen ik in het Verenigd Koninkrijk woonde, was die heerlijke tomatensaus van £2 per fles soms in de reclame voor £ 1: 50% korting! Het was de jackpot. Ik sleepte tien flessen mee naar huis, genoeg voor een maand ravioli. Later kocht ik vliegtickets om een bruiloft in de Verenigde Staten bij te wonen. Als ik de aankoop een week uitstelde, zou de prijs misschien met 5% dalen. ‘Ach,’ zei ik toen ik het hoge tarief accepteerde, ‘het scheelt maar een beetje.’ Ik was zuinig met muntjes maar kwistig met briefjes. De ‘enorme’ korting op tomatensaus bespaarde me £ 12, terwijl de ‘bescheiden’ verhoging van een vliegticket me £ 30 kostte. Een pond is een pond, zowel op een winkelbon van £ 20 als op een hypotheek van £ 200.000. Grote prijsdalingen bij goedkope producten wegen niet op tegen een kleine hobbel bij een grote uitgave.

Het bereik
Hoe werkt het? Het is de afstand tussen de grootste en kleinste waarde.
Wanneer gebruik je het? Het gemiddelde, de mediaan en de modus gaan over de ‘centrale tendens’: ze brengen een diverse populatie terug tot één representatieve waarde. Het bereik doet het tegenovergestelde: het veegt de verschillen niet onder het vloerkleed, maar kwantificeert ze juist om een beeld van de ‘spreiding’ van de data te geven. Het bereik heeft als voordeel dat het eenvoudig is. Het toont een populatie als een spectrum dat loopt van ‘kleinst’ naar ‘grootst’ en geeft de breedte van het spectrum. Het vat de variëteit kort en bondig samen.
Wat mankeert eraan? Het bereik kijkt alleen naar het grootste en het kleinste stukje van de cake en negeert daarmee ontzettend veel cruciale informatie, namelijk de omvang van al die stukken daartussenin. Liggen die dicht bij het maximum? Dicht bij het minimum? Zijn ze gelijkmatig verspreid? Het bereik taalt daar niet naar. Hoe groter het databestand, hoe onbetrouwbaarder het bereik. Dat negeert immers miljoenen tussenliggende waarden om informatie te geven over de twee uitersten. Stel dat je als buitenaards wezen hoort dat het bereik in de lengte van volwassen mensen 215 cm bedraagt (de kleinste mens is 60 cm en de grootste is 275 cm). Zou je dan niet teleurgesteld zijn als je alleen maar al die saaie mensen tussen de 150 en 185 cm zou aantreffen?

De variantie (en de standaarddeviatie)
Hoe werkt het? De standaarddeviatie vertelt je in grote lijnen hoe ver de doorsneewaarde van het gemiddelde afligt. Als je thuis zelf een variantie wilt koken, volgt hier het recept: (1) bepaal het gemiddelde van je databestand; (2) bepaal hoe ver elke waarde van het gemiddelde afligt; (3) bepaal het kwadraat van die afstanden; (4) neem het gemiddelde van die kwadraten. Zo krijg je de ‘gemiddelde afstand in het kwadraat van het gemiddelde’. Oftewel de variantie.

Als je op het eind de wortel neemt, krijg je de ‘standaarddeviatie’. Dat is een intuïtievere maatstaf, aangezien de variantie merkwaardige gekwadreerde eenheden heeft. (Wat is een ‘euro in het kwadraat’? Geen idee.) Omdat variantie en standaarddeviatie bij elkaar horen, bespreek ik ze ook samen.
Wanneer gebruik je het? Net als het bereik kwantificeren variantie en standaarddeviatie de variatie in je data, maar ze zijn beter (ik ben zo onpartijdig als een liefhebbende ouder). Het bereik is een snelle maatstaf voor spreiding; de variantie is een steunpilaar van de statistiek. Door elk lid van het databestand mee te tellen, bereikt de variantie de verfijning van een symfonie; het bereik is in vergelijking maar een simpel deuntje. Het idee van de variantie is complex, maar bij nadere beschouwing wel logisch. Het gaat allemaal om de afstand van de data tot het gemiddelde. Bij ‘grote variantie’ liggen de data flink verspreid; bij ‘kleine variantie’ liggen ze dicht bij elkaar.
Wat mankeert eraan? Zeker, de variantie telt elke waarde mee. Maar je kunt niet zien wie wat bijdraagt. Zo kan één enkele uitschieter de variantie flink vergroten. Dankzij de kwadrerende stap kan één grote afstand (bv. 122 = 144) een grotere bijdrage leveren dan een dozijn kleine (bv. 32 = 9; twaalf van deze termen leveren 96 op). Variantie heeft nog een kenmerk dat veel mensen afstoot, omdat het tegenintuïtief is. Leerlingen zien een databestand met veel verschillende waarden (bv. 1, 2, 3, 4, 5, 6) vaak als meer ‘verspreid’ dan eentje met herhaalde waarden (bv. 1, 1, 1, 6, 6, 6). Maar variantie is niet geïnteresseerd in variatie; ze interesseert zich alleen voor afstand tot het gemiddelde. Voor de variantie weegt de spreiding van het tweede bestand (met herhaalde waarden ver van het gemiddelde) zwaarder dan de spreiding van het eerste (met niet-herhaalde waarden dichter bij het gemiddelde).

De correlatiecoëfficient
Hoe werkt het? Een correlatie meet de relatie tussen twee variabelen, zoals iemands lengte en gewicht, of de prijs van een auto en het aantal verkochte modellen, of een filmbudget en de kassaopbrengst. De schaal loopt van het maximum 1 (‘wow, die passen helemaal bij elkaar’) tot een middelpunt 0 (‘eh, geen verband hier’) tot het minimum -1 (‘hmm, die zijn totaal tegenovergesteld’). Althans, dat is de snelle samenvatting.
Wanneer gebruik je het? Zijn rijke landen gelukkiger? Voorkomt een ‘broken windows’-beleid misdaad? Verlengt rode wijn drinken je leven of alleen je etentjes? Al deze vragen gaan over verbanden tussen twee variabelen, tussen ingebeelde oorzaken en vermoede effecten. Om ze te beantwoorden kun je experimenten doen: geef 100 mensen rode wijn en 100 mensen appelsap en kijk wie er langer leeft. Maar zulk onderzoek is traag, duur en vaak onethisch. Denk aan die zielige controlegroep die geen wijn mag drinken. Correlatie laat ons deze vraag van een andere kant bekijken. Meet van een groep mensen de wijninname en levensduur en kijk of wijndrinkers langer leven. Een sterke correlatie duidt echter nog niet op een oorzaak. Misschien verlengt wijn drinken je leven. Misschien zet een lang leven je tot drinken aan. Misschien zijn beide wel het gevolg van een derde variabele (wie rijk is leeft langer én kan zich meer wijn veroorloven). Niettemin vormen correlatiestudies een geweldig beginpunt. Ze zijn goedkoop en snel en je kunt met grote databestanden werken. Ze kunnen geen oorzaken aanwijzen, maar wel fascinerende aanwijzingen opleveren.
Wat mankeert eraan? De correlatiecoëfficiënt behoort tot de agressiefste statistische instrumenten. Ze vat honderden of duizenden waarden, elk met twee gemeten variabelen, samen in één getal tussen -1 en 1. Uiteraard blijven sommige dingen daardoor buiten beschouwing. We zullen dit illustreren met het zogeheten ‘kwartet van Anscombe’. We gaan naar de Anscombe Academie voor Hekserij en Tovenarij, waar studenten zich hebben voorbereid op toetsen in vier vakken: Toverdrankjes, Metamorfosen, Toverspreuken en Witte magie. Voor elke toets bekijken we twee variabelen: de voorbereidingstijd per student en de score van die student (maximaal 13).
De statistieken wekken de indruk dat de vier toetsen identiek waren:

En toch… Nou, kijk maar. (Elke stip vertegenwoordigt een student.)

De toets Toverdrankjes bevestigt mijn idee over hoe toetsen werken. Meer studeren levert een beter resultaat op. Maar niet zonder meer. Willekeurige ruis gooit roet in het eten. Vandaar de correlatie 0,816.

De scores voor Metamorfosen volgen echter een perfecte lineaire relatie: elk extra studie-uur levert 0,35 extra punten op, behalve bij één uitzonderlijke leerling, die de correlatie van een perfecte 1 terugschroeft naar 0,816.

De toets Toverspreuken volgt een nog duidelijker patroon: studeren verbetert je score, maar met een steeds geringere marginale opbrengst. Vanaf tien studie-uren leidt meer studietijd tot een slechtere score (misschien doordat je minder slaapt). Correlatie is echter bedoeld om lineaire relaties te ontdekken en gaat dus voorbij aan de aard van dit kwadratisch patroon, wat leidt tot een coëfficiënt van 0,816.

Voor Verweer tegen de Zwarte Kunsten heeft elke leerling acht uur gestudeerd. Studietijd zegt hier dus helemaal niets over het resultaat. Er is slechts één uitzondering: een hardwerkende uitzondering die negentien uur heeft gestudeerd en daarvoor met veruit de beste score is beloond. Die ene waarde schroeft de correlatie van 0 helemaal op tot…
0,816. Elke toets volgt zijn eigen logica en heeft zijn eigen unieke patroon, maar aan de correlatiecoëfficiënt kun je dat niet aflezen.

Zo zit statistiek nu eenmaal in elkaar. Zoals ik graag zeg: Een statistiek is een onvolmaakte getuige. Ze vertelt de waarheid, maar nooit de hele waarheid.

Dit was…
…één van de hoofdstukken uit het fascinerende en enthousiasmerende Wiskunde is overal. Meer lezen? Je kunt het boek hier bestellen!

Bronmateriaal

Afbeelding bovenaan dit artikel: 6689062 / Pixabay

Fout gevonden?

Voor jou geselecteerd