De ongrijpbare logica van AI: waarom uitlegbaarheid een uitdaging blijft (ook bij grote taalmodellen)

Stel je voor: je bent in het ziekenhuis voor de uitslag van een bloedonderzoek. De arts vertelt dat je een verhoogd risico hebt op een ernstige bloeding in de komende twee weken. Sterker nog: je kunt zelfs overlijden aan een ernstige bloeding. Dat is althans de voorspelling van een AI-model op basis van meer dan 150 verschillende medische gegevens.

Deze uitslag roept natuurlijk alleen maar nieuwe vragen op: wat is er precies aan de hand? Welke factoren hebben tot deze zorgwekkende voorspelling geleid? Het antwoord op deze vraag kan letterlijk van levensbelang zijn.

Dit scenario is niet fictief. Bij Info Support werden we benaderd door een zorginstelling die worstelde met precies dit probleem. Ze hadden een geavanceerd model laten ontwikkelen om het risico op trombose en nabloedingen te voorspellen, maar konden artsen en patiënten niet uitleggen waarom het model tot bepaalde conclusies kwam. Dit is een klassiek voorbeeld van het belang van uitlegbare (of explainable) AI: de mogelijkheid om te begrijpen hoe AI-systemen tot hun beslissingen komen.

De black box openen

Bij dat trombosemodel konden we achterhalen hoe het model redeneerde, door de invoer elke keer een klein beetje te veranderen. Door systematisch te analyseren hoe veranderingen in de input de voorspellingen beïnvloedden, konden we de relaties tussen de verschillende factoren en de uitkomsten in kaart brengen. Zo maakten we de ‘black box’ als het ware een beetje transparanter.

Dit werkt prima voor veel traditionele machine learning modellen, die nog steeds het merendeel vormen van de AI-systemen die in productie worden gebruikt. De opkomst van grote taalmodellen zoals GPT-4 en Claude stelt ons echter voor nieuwe, grotere uitdagingen.

Taalmodellen zijn inherent complex (en dus niet uitlegbaar)

Het ingewikkelde aan taalmodellen is dat ze fundamenteel anders werken. De architectuur van deze modellen maakt het onmogelijk om precies te achterhalen hoe ze tot hun antwoorden komen. Ze zijn onvoorstelbaar veel complexer dan traditionele machine learning-modellen, omdat ze gebruikmaken van deep learning: neurale netwerken met talloze lagen van berekeningen, waarbij steeds een deel wordt weggegooid en weer nieuwe berekeningen worden uitgevoerd. Deze enorme complexiteit zorgt ervoor dat geen enkele bestaande techniek van explainable AI toepasbaar is op deze taalmodellen – de relatie tussen input en output is simpelweg niet meer te traceren.

Een logische oplossing zou kunnen zijn: vraag het taalmodel waarom het tot een bepaalde conclusie is gekomen. Als je dat doet, dan het een antwoord geven dat plausibel klinkt. Dat betekent niet dat het antwoord juist is. Elk antwoord op elke vraag is in feite een nieuwe voorspelling, niet een uitleg van het eerdere ‘denkproces’. Het model genereert simpelweg wat het denkt dat een logisch antwoord zou zijn op de vraag ‘waarom?’ zonder dat dit gebaseerd is op hoe het daadwerkelijk tot zijn eerdere conclusie kwam.

De gevaren van schijnbare transparantie

Dit werd onlangs goed geïllustreerd in een experiment van een collega, waarbij een AI-model werd gevraagd om Formule 1-coureurs te beoordelen. Het gaf gedetailleerde cijfers en kon schijnbaar perfect uitleggen waarom Max Verstappen een 9,3 verdiende en Lewis Hamilton een 8,7. Toen er werd doorgevraagd naar de gebruikte data, claimde het model zelfs toegang te hebben tot al het team-coureur radioverkeer dat in werkelijkheid helemaal niet publiek beschikbaar is. Het model fabriceerde niet alleen beoordelingen, maar ook een fictieve onderbouwing van zijn werkwijze.

Betekent dit dat we taalmodellen niet kunnen gebruiken in situaties waarin uitlegbaarheid vereist is? Niet per se, maar we moeten wel creatief zijn in onze aanpak. Een veelbelovende richting is het gebruik van RAG (Retrieval Augmented Generation), waarbij het model expliciet aangeeft welke bronnen het gebruikt voor zijn antwoorden.

Met RAG kunnen we zien welke documenten en passages het model heeft gebruikt, inclusief een betrouwbaarheidsscore. Als bepaalde informatie een lage betrouwbaarheidsscore heeft, kunnen we het model instrueren om dit met meer nuance en onzekerheid te presenteren. Zo creëren we een vorm van transparantie, ook al kunnen we nog steeds niet precies zien hoe het model redeneert.

Een interessant detail hierbij is dat we bij RAG zelfs specifieke drempelwaarden kunnen instellen. Als de betrouwbaarheidsscore bijvoorbeeld onder de 70% komt, kunnen we het model instrueren om onzekerder taal te gebruiken of expliciet aan te geven dat het antwoord mogelijk niet volledig accuraat is.

Open source staat niet gelijk aan uitlegbaarheid

Voor toepassingen waar uitlegbaarheid cruciaal is, zoals in de medische sector, blijft het verstandig om te werken met kleinere, specifieke modellen die wel uitlegbaar zijn. En laat ik hierbij een veel voorkomend misverstand uit de weg ruimen: dat een model ‘open source’ is, betekent alleen dat de gewichten van het model openbaar zijn – niet dat het model zelf uitlegbaar is. Open source taalmodellen delen geen code, maar laat alleen zien hoe het model is getraind. Wat er onder de motorkap gebeurt, is net zo ondoorzichtig als bij grote taalmodellen.

Het voorbeeld van het trombosemodel laat zien dat explainable AI letterlijk van levensbelang kan zijn. Terwijl we de mogelijkheden van AI blijven verkennen, moeten we daarom kritisch blijven kijken naar de uitlegbaarheid van deze systemen. Want alleen als we begrijpen hoe AI tot zijn beslissingen komt, kunnen we er verantwoord gebruik van maken.