Openwashing in AI, hoe ‘open’ zijn modellen echt?

Hoe open zijn Large Language Models (LLM’s) eigenlijk? Deze vraag is plotseling erg actueel geworden, door de introductie van de European AI Act. Deze wet, die is ingevoerd op 1 augustus 2024 en naar verwachting in 2026 volledig van kracht is, stelt strenge eisen aan AI-modellen die als hoog risico worden beschouwd en heeft mogelijk verstrekkende gevolgen voor leveranciers als OpenAI, Google en Meta. Door hun LLM’s te bestempelen als ‘open source’, zouden ze deze regelgeving wellicht kunnen omzeilen. Maar hoe terecht is die claim, eigenlijk?

Definitie van open source

“In softwareontwikkeling wordt de term ‘open source’ vaak geassocieerd met transparantie, toegankelijkheid en de mogelijkheid tot samenwerking”, zo vertelt Joop Snijder, Head of Research Center AI bij Info Support. “Traditioneel betekent open source dat gebruikers toegang hebben tot de broncode van een programma, deze kunnen bestuderen, aanpassen en delen. Dit concept heeft jarenlang bijgedragen aan de vooruitgang van technologie en de democratisering van software.”

Wat betekent dit voor AI-modellen?

Voor AI-modellen is het een stuk ingewikkelder om te beoordelen in welke mate ze open source zijn, omdat ze veel meer bevatten dan alleen code. AI-modellen zijn het resultaat van een complex samenspel van:

  1. De broncode van het model
  2. De enorme datasets waarop het model is getraind
  3. De berekende gewichten en parameters
  4. De nabewerkingen die zijn uitgevoerd om deze algoritmes te finetunen

Joop: “Onderzoekers van de Radboud Universiteit hebben veertien eigenschappen geïdentificeerd om het open source-gehalte van AI-modellen te bepalen. Deze bevatten aspecten zoals transparantie over de trainingsdata, inzicht in de trainingsmethodologie en openheid over het energieverbruik tijdens het trainingsproces.”

Door de mand

Het onderzoek laat zien dat een groot deel van de zogeheten open source AI-modellen met deze criteria door de mand valt. “Zo heb je bijvoorbeeld Mistral7B, wat als open source wordt gepresenteerd. Echter is in feite alleen het getrainde model zelf beschikbaar voor download en lokaal gebruik”, aldus Joop. “Cruciale informatie over de trainingsdata en -methodologie blijft verborgen. Van de veertien eigenschappen die de Radboud Universiteit heeft geïdentificeerd voor open source, voldoet Mistral7B slechts aan een beperkt aantal. Ook ChatGPT van OpenAI werd oorspronkelijk gepresenteerd als open source, maar nu is het model zo gesloten als een oester.”

Openwashing in AI

Het onterecht claimen dat iets open source is, wordt ook wel ‘openwashing’ genoemd, vergelijkbaar met ‘greenwashing’ in de milieucontext. Joop: “Openwashing kan verschillende verschijningsvormen aannemen; aanbieders kunnen bijvoorbeeld een AI-model als open source bestempelen, maar geen volledige toegang bieden tot de trainingsdata of methodologie. Ook komt het voor dat aanbieders een getraind model wel beschikbaar stellen om te downloaden, maar cruciale informatie over het trainingsproces verborgen houden. Openwashing is vooral problematisch als het wordt gebruikt om strengere regelgeving te ontwijken, zoals de aankomende EU AI Act.”

Deze wet eist van LLM-leveranciers dat ze transparant moeten zijn over hun data, trainingsmethoden en het energieverbruik van hun modellen. Bovendien wordt er van ze verwacht dat ze risico’s van het gebruik van hun modellen identificeren en beperken. Doen de leveranciers dat niet, dan kunnen ze aanzienlijke boetes en sancties opgelegd krijgen.

Toekomst van open source in AI

Volgens Joop is het duidelijk dat de traditionele definitie van open source niet meer toereikend is voor de complexiteit van moderne AI-modellen. “Misschien moeten we daarom wel toe naar een herdefiniëring van ‘open source’: Er is wellicht behoefte aan een nieuwe set termen of definities die de mate van openheid en transparantie van AI-modellen beter weergeven. Deze zouden rekening moeten houden met alle aspecten van een AI-model, van code tot trainingsdata en methodologie. Tot die tijd is het wel cruciaal dat we kritisch blijven kijken naar de claims van bedrijven en streven naar échte transparantie en verantwoordelijke AI.”

Luister hier naar de volledige aflevering van AIToday Live.