Claude 3 verslaat GPT in benchmarks, maar wat zeggen deze vergelijkende testen?

Anthropic claimt dat zijn nieuwe AI chatbot GPT-4 van OpenAI verslaat (TechCrunch).

Claude 3 is beter dan GPT-4 en Gemini (Techzine).

Het einde van ChatGPT is in zicht (AI Master op YouTube).

 

GPT-4 van OpenAI heeft er een hele stevige concurrent bij. Tenminste, als we (sociale) media mogen geloven. Het gaat om een nieuwe speler in de arena van Large Language Models. Anthropic, een start-up die is opgericht door voormalige medewerkers van OpenAI, lanceerde onlangs Claude 3. In vergelijkende testen, ook wel benchmarks genoemd, komt Claude 3 Opus als beste uit de bus. Het vlaggenschip van Claude 3 presteert beter dan concurrenten zoals OpenAI’s GPT-4 en Google’s Gemini 1.0 Ultra.

Maar wat zijn deze testen eigenlijk? En hoeveel waarde kunnen we hechten aan deze benchmarks?

Joop Snijder, Hoofd van Research Center AI: “De claim van Anthropic is gebaseerd op vergelijkende testen, waarin Claude 3 de beste prestaties heeft geleverd op verschillende gebieden; denk aan redenering, programmeren en wiskundige probleemoplossing.”

Acht benchmarks

In totaal zijn er momenteel acht benchmarks waarop LLM-modellen worden beoordeeld (een volledig overzicht is onderaan dit artikel te vinden). “Zo test Massive Multitask Language Understanding modellen op kun kennisniveau: hoe goed kunnen ze complexe vragen begrijpen en beantwoorden? In deze benchmark moeten ze meer dan vijftig taken verrichten, van geschiedenis en literatuur tot wetenschap. De GSM8K benchmark test hoe goed modellen typische wiskundeproblemen kunnen oplossen op basisschoolniveau, zoals basis rekenen, algebra en geometrie.”

Hoewel de testresultaten interessant zijn, zeggen ze niet alles, aldus Joop: “Doordat resultaten vaak publiekelijk worden gedeeld, zie je dat er een soort wedloop ontstaat; een obsessie om de beste benchmarkscores te behalen. Maar we moeten ons echt afvragen, of dat is wat we willen. Dit soort wedlopen hebben we eerder gezien. Denk bijvoorbeeld aan de digitale camera-industrie, waar de focus lange tijd lag op het aantal megapixels als maatstaf voor de beeldkwaliteit. Dit zorgde voor een soort hyperfocus op resolutie, waarbij andere belangrijke aspecten van de digitale camera, zoals lenskwaliteit, kleurweergave en lichtgevoeligheid, totaal onderbelicht bleven.”

De werkelijkheid is veel complexer dan een test

Kortom: benchmarks vormen maar een deel van het verhaal. “Ze bieden hooguit een momentopname van de capaciteiten van een model”, aldus Joop. “En dat ook nog onder de gecontroleerde omstandigheden van een test. Dat zegt weinig over de toepasbaarheid ervan binnen een specifieke organisatie, waarin je altijd rekening moet houden met de context: het doel waarvoor je een model inzet, kaders en voorkeuren. De werkelijkheid is veel complexer dan een test. De echte uitdaging ligt in het selecteren van AI-systemen die niet alleen uitblinken in gestandaardiseerde tests, maar die ook passen bij de beoogde use case.”

Zo zijn grotere modellen, ondanks de hogere benchmarkscores, niet automatisch de beste keuze, volgens Joop: “Voor bepaalde toepassingen zijn kleinere modellen ook een prima optie, en ze hebben als bijkomend voordeel dat ze minder energie verbruiken. Grote modellen die goed presteren in benchmarks zijn daarnaast ook vaak kostbaar. Anthropic’s instapmodel Haiku is maar liefst zestig keer goedkoper dan hun vlaggenschip Opus. Er zijn echt veel factoren waar je rekening mee moet houden. Je hebt organisatorische beperkingen, zoals een verplichting aan een bepaalde cloudprovider of een voorkeur voor open-source oplossingen. Ook is het goed om te kijken naar hoe een bepaald model presteert binnen specifieke contexten. Niet elk model excelleert op dezelfde manier. En dan hebben we het nog niet eens gehad over leveranciersvoorwaarden, garanties, privacy, beveiliging en schaalbaarheid.”

Kortom: het is verleidelijk om te kiezen voor het nieuwste model dat als winnaar uit een test komt, maar die keuze is niet altijd de beste. “Als je een goede beslissing wilt maken, dan moet je een zorgvuldige afweging maken van doelstellingen, randvoorwaarden en project-specifieke eisen. Benchmarks vormen daarbij slechts één van de vele factoren en moeten met een kritische blik worden beschouwd”, aldus Joop.

Deze benchmarks worden vaak ingezet om Large Language Models te testen:

  1. MMLU (Massive Multitask Language Understanding) meet het kennisniveau van modellen door ze te testen op meer dan vijftig taken die betrekking hebben op diverse onderwerpen zoals geschiedenis, literatuur, en wetenschap. MMLU is ontworpen om te evalueren hoe goed modellen complexe vragen kunnen begrijpen en beantwoorden.
  2. Grade School Math (GSM8K) evalueert de vaardigheid van modellen in het oplossen van wiskundeproblemen die typisch zijn voor de basisschool. Deze benchmark bevat zo’n 8.000 problemen en test onder meer basisrekenen, algebra en geometrie.
  3. Multilingual Math (MGSM) is vergelijkbaar met GSM8K, maar test modellen in het oplossen van wiskundige problemen in verschillende talen. Deze test het vermogen van het model om wiskundige concepten te begrijpen en toe te passen, ongeacht de taal.
  4. Graduate Level Reasoning is geen specifieke benchmark, maar verwijst naar de vermogen van modellen om te presteren op taken die redeneringsvaardigheden vereisen op een niveau dat vergelijkbaar is met dat van een afgestudeerde student. Dit kan betrekking hebben op een breed scala van domeinen, van wiskunde tot natuurwetenschappen.
  5. Math Problem Solving (MATH) meet het vermogen van modellen om complexere wiskundeproblemen op te lossen die doorgaans buiten het curriculum van de basisschool vallen. In de test komen wiskundige problemen aan bod op het niveau van de middelbare school en universiteit.
  6. Code (HumanEval) evalueert de vaardigheid van modellen in het genereren van code en het oplossen van programmeerproblemen. Onderdeel van deze benchmark is een reeks van functie-schrijfproblemen waarbij het model de functiebeschrijving krijgt en de juiste code moet genereren.
  7. Reason over Text (DROP, F1 score) meet het vermogen van een model om complexe vragen te beantwoorden die numeriek redeneren, vergelijkingen maken, en het interpreteren van data vereisen, gebaseerd op de inhoud van paragrafen. De F1-score wordt gebruikt om de nauwkeurigheid van de antwoorden te meten.
  8. Mixed Evaluations (BIG-Bench-Hard) bevat een verscheidenheid aan taken ontworpen om de limieten van taalmodellen te testen op gebieden zoals logisch redeneren, begrijpend lezen, en creativiteit. De test is gericht op het identificeren van taken waar veel modellen van nu moeite mee hebben.