Machine learning faalt in voorspellen menselijk gedrag

Machine learning-algoritmes kunnen de mens maar moeilijk doorgronden. Zelfs de meest geavanceerde ‘rekenrecepten’ voorspellen iemands levensloop niet beter dan eenvoudige vergelijkingsmodellen.

Tot deze ontnuchterende conclusie komt een omvangrijk internationaal team van wetenschappers na uitgebreid onderzoek van de Princeton University. De resultaten hiervan zijn verschenen in een publicatie van de National Academy of Sciences. Deelnemer dr. Louis Raes, universitair docent Economie aan de Universiteit Tilburg, zet vraagtekens achter het toepassen van statistische leeralgoritmes op maatschappelijk gebied.

160 teams bestaande uit honderden onderzoekers moesten zes levenslopen voorspellen, zoals de kans dat een gezin hun huis zou worden uitgezet en de studieprestaties van een kind. Ze kregen een gemeenschappelijke opdracht, een onderzoeksopzet die populair is in de wereld van machine learning. Alle teams werkten met dezelfde gegevens die sociale wetenschappers vijftien jaar lang hadden verzameld in Amerikaanse achterstandsbuurten. De wetenschappers mochten zelf hun onderzoeksmethode kiezen. Velen gingen het probleem te lijf met geavanceerde methoden voor machine learning.

Niemand bleek echter in staat nauwkeurige voorspellingen te doen over het leven van kansarme kinderen op hun vijftiende levensjaar op basis van gegevens over hun negende jaar. Hoewel de onderzoekers toegang hadden tot duizenden voorspellende variabelen die ruim inzicht gaven in het leven van kwetsbare gezinnen, bakten ze er zeer weinig van. Ondanks de verschillen in aanpak benaderde geen enkel team het werkelijke resultaat.

De meest ingewikkelde modellen vol kunstmatige intelligentie (artificial intelligence, ai) bleken nauwelijks betere resultaten op te leveren dan een uiterst simpel lineair regressiemodel of een logistisch regressiemodel. Die laatste modellen werden slechts gevoed met triviale gegevens als de etnische afkomst van de moeder, huwelijkse staat en scholingsniveau en het kennisniveau van hun kind op 9-jarige leeftijd. Toch was het verschil in resultaat minimaal.

Tijd voor bezinning

Dr. Louis Raes, universitair docent Economie aan de Universiteit Tilburg die aan dit onderzoek meewerkte, vindt het tijd voor bezinning. Hij vraagt zich af of het wel zin heeft om op basis van complexe computermodellen belangrijke beslissingen te nemen. Menselijke gedragingen blijken moeilijk te vatten in computermodellen. Daarom heeft Raes ook gerede twijfels over de juiste werking van systemen waarmee overheden fraude proberen op te sporen. Actueel voorbeeld van zo’n risicomodel is het Systeem Risico Indicatie (Syri) dat overigens op last van de rechter om privacyredenen is gestopt.

In totaal zijn inmiddels ruim 750 onderzoeken gepubliceerd die zijn gebaseerd op data uit het Fragile Families and Child Wellbeing-onderzoeksproject. Desondanks lijkt het vrijwel onmogelijk nauwkeurige voorspellingen te doen op basis van dezelfde data.