Aan de TU Eindhoven zijn nieuwe software-tools ontwikkeld om de output van artificial intelligence-modellen (ai) te verklaren. Deze interactieve tools voor visualisatie bieden inzicht in de ‘denkprocessen’ van zulke modellen. Ze helpen de 'geheimen' van zelflerende systemen te ontrafelen. Promovendus Dennis Collaris deed onderzoek.
Collaris promoveerde onlangs aan de TU/e op nieuwe benaderingen om machine learning-modellen te interpreteren vanuit verschillende perspectieven: van lokale uitleg van enkelvoudige voorspellingen, tot globale verklaring van het hele model. De onderzoeker toonde aan dat voorspellingen van zelflerende modellen uitlegbaar zijn.
‘Explainable ai’
De behoefte aan ‘explainable ai’ is groot, reden waarom zulke onderzoeken veel aandacht trekken. Steven Maijoor, die als directeur van De Nederlandsche Bank is belast met het toezicht op de Nederlandse financiële sector, onderstreepte onlangs de noodzaak van een solide praktisch raamwerk dat verklaart hoe ai-systemen tot bepaalde conclusies komen.
Toezichthouders zitten daar om te springen, zeker nu ‘open finance’ op komst is. Open finance gaat verder dan de gegevens en diensten die bij banken beschikbaar zijn. Daarbij gaat het niet alleen om betalingsgegevens, maar ook om gegevens over investeringen, sparen, leningen en verzekeringen, zoals schadehistorie. Gegevens die financiële instellingen kunnen helpen nieuwe producten te ontwikkelen en risico’s beter in te schatten. Om de stap naar open finance te maken, moeten eerst fundamentele vragen worden beantwoord, mede over de werking van ai-systemen.
Uitlegbaarheid
Promovendus Collaris toont ook aan dat je de parameters van ‘uitleg-technieken’ zorgvuldig moet overwegen en onzekerheid helder moet aangeven. Het schandaal rond de toeslagenwet laat zien dat uiterste voorzichtigheid is geboden. Een verkeerde voorspelling door een ai-systeem kan verregaande gevolgen hebben.
De Algemene verordening gegevensbescherming (AVG – GDPR) stelt daarom dat uitlegbaar moet zijn hoe een model tot een bepaalde conclusie komt. Volgens Collaris is dat echter behoorlijk lastig als het gaat om zelflerende ai-systemen. Op basis van een berg data spuwt een spreekwoordelijke black box een antwoord uit. De manier waarop het model tot dit antwoord komt, is niet zomaar te achterhalen.
De wetenschapper legt uit dat een computermodel geen vastomlijnd stappenplan kent. Gaandeweg komt zo’n model erachter welke kenmerken van bijvoorbeeld potentiële klanten van een verzekeraar aangeven dat er een kans bestaat dat ze fraude willen plegen. Zelflerende modellen kunnen aantoonbaar bruikbare aanbevelingen doen. Probleem is dat ze geen motivaties geven. En die zijn nodig bijvoorbeeld als iemand voor een verzekering wordt geweigerd of een fraudeonderzoek in gang wordt gezet. Collaris merkte bij Achmea hoeveel moeite het data-wetenschappers kost hun voorspellende modellen uit te leggen.
Inzicht in de ziel
Om erachter te komen welke strategie een computermodel heeft gekozen, is een duidelijk overzicht van de gebruikte en verwerkte data essentieel. Hiertoe ontwikkelde Collaris twee interactieve softwaretools, ‘ExplainExplore’ en ‘StrategyAtlas’, die gebruikers inzicht bieden in de ‘ziel’ van zelflerende modellen.
ExplainExplore laat zien welke kenmerken een zelflerend computermodel gebruikt om een voorspelling te doen. Deze softwaretool geeft aan hoe zwaar elk kenmerk in het model meerekent bij de bepaling van een voorspelling. Collaris noemt dat de ‘feature-bijdrage’. Het is een interactief uitlegsysteem om verklaringen van individuele voorspellingen te onderzoeken. De tool geeft voor elke uitleg de context door vergelijkbare prognoses te presenteren en de impact van kleine inputverstoringen te laten zien.
Als tweede introduceert Collaris de StrategyAtlas. Deze visuele benadering van analyse maakt een globaal begrip van complexe machine-leermodellen mogelijk. Dit gebeurt door de identificatie en interpretatie van verschillende model-strategieën.
Deze model-strategieën worden geïdentificeerd in een op projectie-gebaseerde Strategiekaart visualisatie. Data-wetenschappers kunnen de validiteit van deze strategieën vaststellen door kenmerkwaarden en bijdragen te analyseren met behulp van warmtekaarten, dichtheid-grafieken en beslisboom-abstracties.