Voorspellende modellen worden steeds vaker gebruikt. Bijvoorbeeld om te bepalen of iemand dreigt in betalingsachterstand te komen of dat zijn vergunningsaanvraag wat meer aandacht verdient dan gemiddeld. Vaak zijn de onderliggende modellen keurig statistisch gevalideerd. Dat lijkt een hele vooruitgang ten opzichte van het onderbuik gevoel van de gebruiker. Maar kan de computer zijn onderbuikgevoel beter onderbouwen dan een mens?
Als student aan een bèta faculteit werd ons het vak statistiek bespaard. We zouden immers toch niet gaan experimenteren op ratjes en statistiek is ook maar wiskunde. En zo komt het dat ik vandaag de dag nog regelmatig Wikipedia erop na sla hoe het ook al weer zat met kansverdelingen of Anova (analysis of variance).
Voorspellende modellen
Overtuigd van het feit dat de hele wereld de stof over data voorspellende modellen beter beheerst dan ik, stond ik dus even met mijn mond vol tanden toen ik de vraag kreeg: ‘Ja, mooi dat voorspellende model, maar hoe weet je waarom hij een persoon in die categorie stopt?’. Nota bene was het een toezichthouder die de vraag stelde. Je zou denken dat die het juist toejuicht dat nattevingerwerk vervangen wordt met modellen die onderbouwd zijn met keiharde data. Probeer maar eens een medicijn op de markt te brengen zonder statistisch gevalideerd onderzoek!
Toch slaat de vraag van de toezichthouder de spijker op de kop. Voorspellende modellen – of het nu gaat om lineaire regressie, support vector machines of neurale netwerken – vinden verbanden. En die verbanden zijn niet altijd oorzakelijk. Hoe ga je dan uitleggen dat je iemand onder een vergrootglas legt, op basis van een score uit dat model?
Risico’s bepalen aan de hand van data
In 2010 heeft de overheid in de VS onderzocht of creditcard maatschappijen het koopgedrag van hun klanten gebruiken om bijvoorbeeld kredietruimte te beperken of om rentes te verhogen. Veel maatschappijen deden dat. Bijvoorbeeld wanneer een creditcardgebruiker een enthousiaste gokker blijkt te zijn. Maar soms ook omdat een model een hoge risicoscore aangaf op basis van aankopen uit het verleden. Een probleem daarbij is dat hier sprake kan zijn van discriminatie. Het model bepaalt niet op basis van huidskleur dat je een hoog risico loopt, maar kan (onterecht) tot de conclusie komen dat er een hoger risico kleeft aan álle mensen die inkopen doen bij een bepaalde winkel of in een bepaalde wijk.
Mensen die viltjes kopen om onder tafelpoten te plakken vormen een lager risico, maar is dat omdat ze zuiniger zijn op hun spullen? Het model verklaart het niet. En wat te denken van het sterke verband (94,7 cprocent correlatie) tussen de consumptie van kaas (per hoofd van de bevolking) in de VS en het aantal Amerikanen dat overlijdt doordat ze verstrikt raken in beddengoed?
Voorzichtig omgaan met scores
Kenniswerkers die metertjes en stoplichten op hun dashboard zien, moeten dus verdraaid goed het verschil begrijpen tussen correlatie en oorzakelijk verband. Dashboards moeten dat verschil ook duidelijk aangeven. Sommige stoplichten zijn gebaseerd op harde feiten en logische verbanden. Als er slechts sprake is van correlatie moet je extra voorzichtig zijn om te acteren op een ‘slechte’ score. Mensen verdienen het niet om in een hokje gestopt te worden op basis van statistische verbanden, in een kleine steekproef met indirecte verbanden, die gevonden wordt in data van bedenkelijke actualiteit en kwaliteit. Lees voor gebruik de bijsluiter.