Model-benchmarks - Entity Enricher-documentatie

Model-benchmarks

Met benchmarkscenario's kun je LLM-modellen vergelijken op een echte, herhaalbare verrijkingstaak — appels met appels — waarbij de output en totale kosten van elk model worden vastgelegd, zodat je het juiste model voor de klus kunt kiezen.

Waarom benchmarken?

Modellen verschillen enorm in nauwkeurigheid, betrouwbaarheid van gestructureerde uitvoer en prijs. In plaats van te gokken voert een benchmarkscenario hetzelfde schema en dezelfde entity door meerdere modellen tegelijk uit en legt vast wat elk produceerde en wat het kostte. Je vergelijkt op basis van bewijs en kiest vervolgens definitief het goedkoopste model dat aan je kwaliteitseisen voldoet.

Hoe het werkt

Definieer een scenario

Een benchmarkscenario is een opgeslagen, herbruikbare verrijkingstest: een schema, een vaste entiteitsinvoer (zoeksleutels of ruwe JSON), een verrijkingsstrategie, talen, de schakelaars voor response-schema / strict-structured-output, en eventuele bijlagen. Het bevat ook zijn gouden referentie en hoe resultaten daartegen worden beoordeeld (een optioneel jurymodel, een embeddingmodel en een striktheidsdrempel). Definieer het één keer en hergebruik het bij elk model dat je wilt vergelijken.

Voer het uit over meerdere modellen

Zodra het scenario een geverifieerde referentie heeft, voer je het uit tegen de actieve modellen van één provider of elk actief model in beeld. Elk model wordt onafhankelijk verrijkt — geen fusie — zodat je een schoon resultaat per model naast elkaar krijgt. De voortgang wordt live gestreamd en elk succesvol resultaat wordt automatisch gescoord tegen de referentie zodra de run klaar is.

Vergelijk output & kosten

Elke run wordt opgeslagen met de gestructureerde uitvoer, succesatus, tokenaantallen, verwerkingstijd en totale gefactureerde kosten. Klap een rij uit om de JSON-uitvoer te bekijken of naar het onderliggende verrijkingsrecord te springen.

Voer opnieuw uit om te vernieuwen

Als je een scenario opnieuw uitvoert op hetzelfde model, overschrijft dit het vorige resultaat, zodat de tabel altijd de laatste uitvoering weergeeft. Bewerk je de configuratie van een scenario, dan worden oudere resultaten gemarkeerd als verouderd totdat je ze opnieuw uitvoert. Stel Uitvoeringen per model in op 2 of 3, en elk model wordt dat aantal keren gebenchmarkt — de tabel behoudt het gemiddelde van kosten, kwaliteit en snelheid plus een consistentiespreiding (modellen variëren van uitvoering tot uitvoering), tegen ongeveer dat veelvoud aan credits.

De resultaten lezen

De resultatentabel is gebouwd voor vergelijking. Een samenvattingsstrook bovenaan benadrukt het slagingspercentage en de goedkoopste en snelste modellen die geslaagd zijn. Elke kolom — model, status, strategie, kosten, tokens en tijd — is sorteerbaar, dus met één klik rangschik je modellen op prijs of latency. Filter op modelnaam, status of strategie om de weergave te verfijnen, en klap een rij uit om de volledige gestructureerde output te lezen of het onderliggende verrijkingsrecord te openen.

Itereren: opnieuw proberen & uitschakelen

Benchmarking is iteratief. Vink rijen aan met de selectievakjes (shift-klik voor een reeks) en gebruik dan het ···-menu om op een deelverzameling te werken zonder alles opnieuw uit te voeren:

Opnieuw proberen: geselecteerd / mislukt / verouderd — voer alleen die modellen opnieuw uit; resultaten worden ter plekke overschreven. Mislukt en verouderd beslaan bewust de volledige resultatenset, zodat een actief filter nooit een doel voor opnieuw proberen verbergt.
Mislukte / geselecteerde uitschakelen — schakel modellen uit zodat ze niet meer in verrijkingskiezers verschijnen. Handig om modellen op te ruimen die je schema consequent niet aankunnen, of waarvan de uitvoer je lat niet haalde.

Stel een gouden referentie in (vereist om te benchmarken)

Elk scenario bevat een referentieresultaat — de verwachte uitvoer voor zijn entiteit — en een scenario kan pas gebenchmarkt worden zodra die referentie is geverifieerd. Tot dan verschijnt het in geen enkel runmenu. De referentie is de basis om kwaliteit te beoordelen: hoe dicht elk model erbij komt, veld voor veld, en (voor lijsten zoals de cast van een film) hoeveel van de juiste items het daadwerkelijk heeft gevonden. Je stelt die in — samen met het beoordelingsmodel, het embeddingmodel en de striktheid waarmee ertegen wordt beoordeeld — direct in de scenario-editor.

Bouw het op twee manieren. Genereer het: voeg een document toe dat de juiste waarden bevat (een datasheet, een officiële pagina), zet webzoeken aan en draai een paar sterke modellen — ze halen het antwoord uit je bron in plaats van uit hun geheugen, zodat het resultaat op de waarheid berust en niet op giswerk. Of plak een bekend goed resultaat dat je al hebt. Hoe dan ook bekijk je de JSON, corrigeer je waar nodig en markeer je het als geverifieerd — een expliciete bevestiging dat dit het gouden antwoord is.

Omdat de referentie gegrond is en één keer door een mens is gecontroleerd, fungeert die meteen als een betrouwbare maatstaf die je hergebruikt voor elk model en elke toekomstige run.

Waar je het vindt

Benchmarks staan in Modelbeheer → Benchmarks(beschikbaar voor eigenaren en beheerders van de organisatie). Maak en beheer daar scenario's, of start een uitvoering vanaf een van vier plekken: de knop Benchmark models in de werkbalk (alle actieve modellen in beeld), de actie Benchmark models op een providerrij (de actieve modellen van die provider), het Benchmark-dropdownmenu dat verschijnt wanneer je modellen selecteert in het Modellen-paneel (de geselecteerde modellen), of de actie Benchmark model op een enkele modelrij.

Kosten & facturering

Benchmarkruns doen echte LLM-aanroepen en trekken credits af op basis van het werkelijke gebruik, precies zoals een normale verrijking. Het bevestigingsvenster laat je zien hoeveel modellen je gaat draaien voordat er iets wordt uitgegeven. Elk opgeslagen resultaat toont de in rekening gebrachte kosten, dus een benchmark fungeert ook als een tool voor kostenvergelijking.

Benchmarkscore

Beoordeel resultaten aan de hand van een goudreferentie — gelijkwaardigheid, array-F1, deelscores.

Modellen en prijzen

Beheer models, synchroniseer prijzen en voer statuscontroles uit.

Verrijkingsstrategieën

Enkele doorloop versus expertisedomeinen versus multi-expertise.

Kostenoptimalisatie

Houd verrijking goedkoop met caching en gating.

Kostendashboard

Analyseer uitgaven met tijdreeksen en uitsplitsingen per model.