De mogelijkheden en uitdagingen van Large Language Models

ChatGPT is misschien wel de meest bekende, maar zeker niet de enige. Wel kunnen we met zekerheid stellen dat de introductie van ChatGPT door OpenAI heeft geleid tot een explosieve toename in zowel de interesse in- als het gebruik van Large Language Models (LLMs). Maar hoe werken ze eigenlijk? Wat kun je ermee (en wat niet)? En is ChatGPT de beste keuze, of zijn er betere alternatieven?

Wat is een Large Language Model?

Laten we beginnen met de definitie. Een LLM is een neuraal netwerk dat is getraind op enorme hoeveelheden tekstdata en is daardoor in staat om menselijke taal te genereren.ChatGPT is nog steeds het bekendste voorbeeld, maar er zijn inmiddels meerdere grote spelers op de markt. Zo heeft Google met Bard zijn eigen LLM, Meta heeft LLaMA en Anthropic brengt Claude uit. Bovendien zijn er verschillende open source varianten beschikbaar.

Elke leverancier heeft zo zijn eigen voorwaarden voor het gebruik van hun LLMs. Dit verschilt zelfs per modelversie. Het is daarom belangrijk goed op te letten onder welke voorwaarden een LLM gebruikt mag worden – lees dus goed de ‘kleine lettertjes’ voordat je aan de slag gaat. Ook is het goed om uit te zoeken of de leverancier jouw inputdata mogen gebruiken voor verdere training en wanneer nieuwe modelversies beschikbaar worden.

Hoe kun je LLMs inzetten in je organisatie?

LLMs bieden tal van nieuwe mogelijkheden. Zo kunnen ze helpen bij het genereren van realistische en de meest uiteenlopende softwaretesten. Daarnaast kunnen ondersteuning bieden bij natuurlijke taalverwerking, bijvoorbeeld voor het schrijven van teksten of zelfs computercode.

Verder zijn LLMs in staat om menselijke spraak te genereren en stemconversie uit te voeren. Dit maakt nieuwe toepassingen rondom spraaktechnologie mogelijk. Ze kunnen zelfs kunstmatige beeldanalyse en datavisualisatie ondersteunen. LLMs kunnen complexe data omzetten naar begrijpelijke visualisaties en verklaringen in natuurlijke taal.

Het is verstandig om eerst kleinschalig te experimenteren. Test bijvoorbeeld met het genereren van content in een beperkt domein of met het omzetten van complexe datasets naar vertelbare verhalen. Op basis van deze pilots kan duidelijk worden wat de meerwaarde van LLMs is voor specifieke toepassingen. Dit stelt je in staat om een weloverwogen beslissing te nemen over eventuele verdere adoptie en schaalbaarheid

Wat zijn de belangrijkste uitdagingen van LLMs?

Hoewel er veel mogelijkheden zijn, brengt het gebruik van LLMs ook uitdagingen met zich mee. Ten eerste is het niet vanzelfsprekend dat de gegenereerde content feitelijk juist is. LLMs kunnen zeer overtuigend schrijven, maar even gemakkelijk foutieve informatie genereren. Een bekend voorbeeld hiervan is een advocaat in de VS die ChatGPT raadpleegde bij het schrijven van een verweer. ChatGPT leverde veel relevante jurisprudentie, wat de advocaat enigszins aan het twijfelen bracht. Toen hij de chatbot vroeg of zijn input wel op waarheid berustte, kreeg hij een geruststellend ‘ja’ als antwoord. De tegenpartij in de rechtszaak ging op onderzoek uit en achterhaalde al gauw dat ChatGPT alles uit zijn duim had gezogen.

Kortom, controle door mensen blijft noodzakelijk. Een LLM kan heel goed antwoord geven op je vragen, maar dat betekent niet dat alle antwoorden waarheidsgetrouw zijn.

Bovendien is het vrijwel onmogelijk om de volledige controle te hebben over de vorm van de gegenereerde output. Een verzoek om iets in tabelvorm weer te geven kan negen keer op rij goed gaan, maar de tiende keer niet. Daarnaast is niet iedereen zich bewust dat bestaande modellen continu moeten worden onderhouden. Nieuwere LLMs kunnen namelijk problemen veroorzaken met bestaande prompts, omdat ze zijn getraind op gegevens tot een bepaald moment. Dit zorgt voor beperkingen rondom recente ontwikkelingen.

De werking van LLMs blijkt moeilijk te doorgronden. Dit gebrek aan interpreteerbaarheid maakt het lastig om bijvoorbeeld bronvermeldingen toe te voegen aan gegenereerde content. Tot slot is het inschatten van operationele kosten in productieomgevingen complex. Dit kan de breedte van de inzetbaarheid beperken, aangezien doorgaans per token wordt betaald. Hoewel je een limiet kunt instellen, kan dit het aantal pogingen beperken dat nodig is om het juiste antwoord in het gewenste formaat te krijgen.

Hoe kies je het juiste LLM?

Met zoveel verschillende aanbieders kan het kiezen van het juiste LLM een uitdaging zijn. Er zijn verschillende factoren waarmee rekening moet worden gehouden. Allereerst is het van belang om de beoogde toepassingen en de verwachte meerwaarde scherp te hebben. Experimenteer eerst op beperkte schaal om dit inzichtelijk te krijgen. Let daarbij ook goed op de gebruiksvoorwaarden, bijvoorbeeld of een leverancier jouw input mag gebruiken voor een toekomstige training.

Daarnaast speelt de keuze tussen een open source en een commercieel platform een rol. Bij open source heb je meer vrijheid en flexibiliteit, maar mogelijk ontbreekt professionele ondersteuning. Een andere factor is de kostenraming. Wat zijn de verwachte operationele kosten?

Tot slot is het belangrijk om rekening te houden met de technische volwassenheid van het LLM en de ondersteuning voor verschillende talen. Houd hierbij rekening met eventuele beperkingen voor het Nederlands. De meeste LLMs zijn vaardig in het Engels, maar presteren lang niet altijd even goed in het Nederlands. Weeg al deze factoren zorgvuldig af voordat je een keuze maakt. Voer eerst pilots uit, stel de juiste verwachtingen en kies op basis daarvan een LLM dat aansluit bij jouw specifieke behoefte. Op deze manier kun je het meeste waarde halen uit het gebruik van LLMs.

Dit artikel is gemaakt op basis van deze aflevering van de podcast AIToday Live met Joop Snijder.