Eerlijkheid op het gebied van ai bereiken is makkelijker gezegd dan gedaan. De uitdaging begint al met de term zelf: wat verstaan we onder eerlijkheid?
Op het meest basale niveau gaat het er bij eerlijkheid om dat de ene persoon niet meer wordt benadeeld of bevoordeeld dan de andere; zeker niet om redenen die te maken hebben met wie die persoon is. Wanneer de resultaten verschillend zijn voor vergelijkbare groepen mensen op basis van niet-gerelateerde criteria kunnen we dit als discriminerend definiëren. Het doel is om alle vormen van discriminatie te voorkomen.
Eerlijkheid versus ethiek
Het is belangrijk om in te zien dat eerlijkheid en ethiek niet noodzakelijkerwijs hetzelfde zijn. Het is mooi als ze overeenkomen, maar het is essentieel om het verschil tussen beide te zien om de vele situaties waarin dat niet het geval is, aan te kunnen pakken. Eerlijkheid gaat, kort gezegd, over evenwicht, terwijl ethiek gaat over moraal en opvattingen over wat goed en slecht is. Om dit verschil uit te leggen kijken we naar het volgende voorbeeld:
Stel dat iemand jouw appel heeft gestolen. Je krijgt nu de kans om een sinaasappel van de appeldief terug te stelen. Zou je dat doen? We zouden kunnen stellen dat het onethisch is om de sinaasappel van die persoon te stelen. Want two wrongs don’t make a right. Maar het zou in zekere zin toch eerlijker zijn als je de sinaasappel zou stelen? Want dan sta je quitte.
Nu pleit ik zeker niet voor diefstal, maar door het punt wat te overdrijven, wordt het onderscheid tussen de twee duidelijk. Je richten op eerlijkheid, in plaats van op ethiek, is je richten op problemen die nu effectief en tastbaar zijn op te lossen, dat wil zeggen, met oplossingen die je op korte termijn kunt bereiken. De invoering van een robuuste eerlijkheidsaanpak in data- en ai-processen begint dan ook met een verandering van perspectief. Hieronder staan de belangrijkste gebieden waarop managers en analisten meer oog voor eerlijkheid moeten hebben.
Steekproefvooroordelen
De steekproeven die we gebruiken om onze modellen te trainen, moeten de behoeften weerspiegelen van de mensen die uiteindelijk door die modellen worden bediend. Dit betekent dat we ervoor moeten waken dat er geen oneerlijke vooroordelen in de steekproeven worden geïntroduceerd.
Neem algoritmes voor gezichtsherkenning: hoewel zij zeer accuraat kunnen zijn voor mensen met een lichte huidskleur, is uit onderzoek onomstotelijk gebleken dat zij slecht presteren bij mensen met een donkere huidskleur. Een van de redenen hiervoor is dat de modellen werden getraind op degenen waarvoor het uiteindelijk het beste werkte, waardoor ze voor alle anderen nadelig uitpakten.
Labelen
Een centraal onderdeel van het trainen van modellen is het labelen. Dit houdt in het observeren van de inputs van het model en het handmatig bewerken van het eerste X aantal daarvan om de labelnauwkeurigheid van het model te helpen verbeteren. Als het team dat het model traint een homogeen wereldbeeld heeft over de categorieën die het gebruikt, kan het zijn dat er belangrijke, uiteenlopende perspectieven gemist worden.
Om hier een eenvoudig voorbeeld voor te geven kijken we naar een team dat een model traint over de vraag of iets ‘soep’ of ‘geen soep’ is. Dit team denkt er misschien niet aan om stoofschotels van soepen te onderscheiden, terwijl een team met een meer gediversifieerd perspectief dat misschien wel doet. Het tweede team zou daardoor over een genuanceerder en kritischer labelsysteem beschikken.
Eerlijke pijplijnen
Hoe je features ontwerpt en hoe je nulwaarden, gemiddelden en uitschieters behandelt, zijn allemaal stappen in de opbouw van het model. In elk stadium zijn er vooroordelen in het brein van de ontwerper die hun stempel drukken op het proces. De uitkomst heeft dus altijd een bias, ook al is het geen historische bias. Dit begrijpen is de eerste stap om te bepalen in welke stadia bias wordt geïntroduceerd, en waar mogelijk en nodig in te grijpen om ervoor te zorgen dat de bias die aan het eind ontstaat niet oneerlijk is.
De belangrijkste les die aan al het bovenstaande ten grondslag ligt, is duidelijk: hoe meer divers het team dat de algoritmen en pijplijnen ontwerpt, hoe beter oneerlijke vooroordelen zijn te voorkomen bij het nemen van steekproeven, het labelen en het ontwikkelen van de pijplijn.
Diversiteit is de basis voor eerlijke ai-modellen en dus voor responsible ai.