Het Clever Hans effect: indrukwekkende AI kan nog steeds fout zitten

Het lijkt soms alsof artificial intelligence bijna menselijke capaciteiten heeft. Chatbots die vloeiend kunnen converseren, afbeeldingen genereren zoals een kunstenaar, of zelfs complexe wiskundige berekeningen maken. Maar wat als die indrukwekkende prestaties gebaseerd zijn op een foutieve redenering? 
Dan hebben we te maken met het zogenaamde Clever Hans effect.

Ingewikkelde rekenkundige opgaven

Clever Hans was een paard dat rond 1900 furore maakte door ingewikkelde rekenkundige opgaven op te lossen. Het leek alsof Hans echt kon rekenen, tot onderzoekers erachter kwamen dat het paard eigenlijk hints oppikte van zijn omgeving. Zo reageerde hij op het enthousiasme van het publiek als hij bij het juiste antwoord kwam. Hans redeneerde dus verkeerd, maar kwam toch tot de goede uitkomst.

Hoe ontstaat het Clever Hans effect?

Het Clever Hans effect ontstaat doordat gedrag onbewust beïnvloed wordt door hints van de omgeving of omstanders. Een sprekend voorbeeld is hoe het paard Clever Hans reageerde op het enthousiasme van het publiek bij het juiste antwoord. Hans’ baasje vroeg het paard bijvoorbeeld “Wat is drie keer acht?” en noemde vervolgens hardop de getallen op. Bij elk getal dat dichter bij het goede antwoord 24 kwam, werd de sfeer onder het publiek gespannener en enthousiaster.

Ook al begreep Hans niets van rekenen, hij merkte wel dat de mensen steeds positiever reageerden. Dus bij 24, waar de reactie het meest uitbundig was, gaf Hans aan dat dit het antwoord moest zijn. Zo leidde het onbewuste enthousiasme van de omstanders het paard naar de juiste oplossing, ook al redeneerde hij eigenlijk verkeerd. Dit illustreert perfect hoe het Clever Hans effect kan ontstaan. AI pikt net als Hans moeiteloos patronen en stimuli op die wij mensen überhaupt niet waarnemen. En die kunnen het gedrag ongewild in de gewenste richting sturen, zelfs als de onderliggende logica onjuist is.

Het Clever Hans effect binnen AI

Een belangrijk verschil tussen mens en AI is dat een AI vaak patronen en details oppikt die voor ons volstrekt onzichtbaar zijn. Denk aan hele subtiele verschillen in pixels of meta-data die wij niet opmerken, maar voor een AI duidelijke onderscheidende kenmerken zijn. Dit geeft AI-systemen een enorm voordeel om sneller verbanden te leggen en conclusies te trekken. Maar het maakt ze ook vatbaar voor het Clever Hans effect. De AI herkent en leert van patronen die wij niet eens zien. Dus we hebben geen idee waar het systeem nu precies op let om tot bepaalde beslissingen te komen.

Zo zou een gezichtsherkenningsmodel personen op basis van heel subtiele watermerkjes of branding in beeld kunnen identificeren, in plaats van echt naar gezichten te kijken. Of een diagnostisch model dat tumoren ‘herkent’ aan de hand van patiënt-ID’s of andere metadata. Voor ons lijkt het alsof de AI slim redeneert, maar feitelijk pikt het model irrelevante patronen op.

Stel, een model is getraind om honden en katten te onderscheiden. De foto’s van honden bevatten echter allemaal een klein watermerk linksonder. Voor mensen is dat watermerk nauwelijks zichtbaar, maar het AI-model pikt dat feilloos op. In plaats van echt naar de dieren te kijken, leert het model om foto’s met het watermerk als ‘hond’ te classificeren. Dit illustreert hoe gemakkelijk het mis kan gaan als een model zijn beslissingen baseert op dingen die wij niet zien of bedoelen. Het Clever Hans effect ligt op de loer.

De gevolgen van het Clever Hans effect in AI

Als een AI-model verkeerd redeneert onder de motorkap, kan dat leiden tot foutieve beslissingen met grote gevolgen. Zelfs als de uitkomst op het oog juist lijkt. Stel een recruitmentsysteem selecteert sollicitanten op basis van subtiele patronen in cv’s, in plaats van de daadwerkelijke kwalificaties. Dan worden wellicht verkeerde kandidaten aangenomen voor belangrijke functies. Of een medisch diagnostisch model dat eigenlijk afgaat op patiënt-ID’s in plaats van scans, en hierdoor kanker over het hoofd ziet.

Dergelijke foutieve beslissingen op basis van een verkeerde redenering kunnen enorme schade aanrichten. Denk aan onterecht iemand van fraude beschuldigen, verkeerde medische behandelingen, of het aannemen van incompetente kandidaten voor cruciaal werk.

De oplossing: interpreteerbare AI

Een cruciaal onderdeel van de oplossing is interpreteerbare AI. Dit zijn AI-modellen die niet alleen een beslissing nemen, maar ook uitleg kunnen geven bij hun redenering. In tegenstelling tot black box modellen geeft een interpreteerbaar model inzicht in de stappen die het heeft doorlopen om tot een bepaalde conclusie te komen. Bijvoorbeeld door keywords te identificeren in een tekst waarop het besluit is gebaseerd. Of door visueel weer te geven welke delen van een afbeelding belangrijk waren. Deze vorm van AI maakt de onderliggende redenering transparant, in plaats van die als een black box te verhullen. Hierdoor kunnen we controleren of het model daadwerkelijk op de juiste gronden tot zijn beslissing komt, in plaats van irrelevante zaken. Dit inzicht is cruciaal om het Clever Hans effect op te sporen. Als blijkt dat een model zijn beslissingen baseert op irrelevante patronen, watermerken of bias in de data, in plaats van de daadwerkelijke inhoud, weten we dat er iets mis is. Op basis van deze inzichten kunnen we het model vervolgens bijsturen.

Bijvoorbeeld door de trainingsdata aan te passen, zodat het model niet op basis van de verkeerde dingen leert. Of door het model aanvullende instructies te geven over wat het wel en niet mag meewegen in zijn besluitvorming. Zo leren we het model stap voor stap de juiste kant op te redeneren. Doordat we als mens de redenering van een model kunnen doorgronden, in plaats van die als een black box te zien, kunnen we adequaat redeneren, identificeren en corrigeren. Zelfs als dit initieel niet zichtbaar is en de AI heel slim lijkt.

Dit artikel is gemaakt op basis van deze aflevering van de podcast AIToday Live.