Mit Benchmark-Szenarien können Sie LLM-Modelle anhand einer realen, wiederholbaren Anreicherungsaufgabe vergleichen — direkt und unter gleichen Bedingungen — und dabei die Ausgabe und Gesamtkosten jedes Modells erfassen, sodass Sie das passende Modell für die Aufgabe auswählen können.
Modelle unterscheiden sich stark in Genauigkeit, Zuverlässigkeit der strukturierten Ausgabe und Preis. Anstatt zu raten, führt ein Benchmark-Szenario dasselbe Schema und dieselbe Entität durch viele Modelle gleichzeitig und erfasst, was jedes erzeugt und was es gekostet hat. Sie vergleichen anhand von Belegen und legen dann das günstigste Modell fest, das Ihre Qualitätsanforderungen erfüllt.
Ein Benchmark-Szenario ist ein gespeicherter, wiederverwendbarer Anreicherungstest: ein Schema, eine feste Entitäts-Eingabe (Suchschlüssel oder Roh-JSON), eine Anreicherungsstrategie, Sprachen, die Umschalter für Response-Schema und Strict-Structured-Output sowie etwaige Anhänge. Es enthält außerdem seine Gold-Referenz und die Art, wie Ergebnisse damit verglichen werden (ein optionales Bewertungsmodell, ein Embedding-Modell und ein Schwellenwert für die Strenge). Einmal definieren und für jedes zu vergleichende Modell wiederverwenden.
Sobald das Szenario eine verifizierte Referenz hat, führen Sie es gegen die aktiven Modelle eines Providers oder jedes aktive Modell in der Ansicht aus. Jedes Modell wird unabhängig angereichert – keine Fusion – sodass Sie ein sauberes Ergebnis pro Modell im direkten Vergleich erhalten. Der Fortschritt wird live gestreamt, und jedes erfolgreiche Ergebnis wird nach Abschluss des Laufs automatisch gegen die Referenz bewertet.
Jeder Durchlauf wird mit seiner strukturierten Ausgabe, dem Erfolgsstatus, den Token-Anzahlen, der Verarbeitungszeit und den gesamten abgerechneten Kosten gespeichert. Erweitern Sie eine beliebige Zeile, um die JSON-Ausgabe zu prüfen oder zum zugrunde liegenden Anreicherungs-Datensatz zu springen.
Das erneute Ausführen eines Szenarios auf demselben Modell überschreibtdessen vorheriges Ergebnis, sodass die Tabelle stets den neuesten Durchlauf widerspiegelt. Bearbeiten Sie die Konfiguration eines Szenarios, werden ältere Ergebnisse als veraltet markiert, bis Sie sie erneut ausführen. Setzen Sie Durchläufe pro Modell auf 2 oder 3, wird jedes Modell entsprechend oft gebenchmarkt – die Tabelle behält den Mittelwert von Kosten, Qualität und Geschwindigkeit sowie eine Konsistenzstreuung (Modelle variieren von Durchlauf zu Durchlauf), bei ungefähr dem entsprechenden Vielfachen der Credits.
Die Ergebnistabelle ist für Vergleiche konzipiert. Eine Zusammenfassungsleiste am oberen Rand hebt die Erfolgsrate sowie das günstigste und schnellste erfolgreiche Modell hervor. Jede Spalte — Modell, Status, Strategie, Kosten, Tokens und Zeit — ist sortierbar, sodass ein Klick die Modelle nach Preis oder Latenz ordnet. Filtern Sie nach Modellname, Status oder Strategie, um die Ansicht einzugrenzen, und klappen Sie eine beliebige Zeile auf, um die vollständige strukturierte Ausgabe zu lesen oder den zugrunde liegenden Anreicherungs-Datensatz zu öffnen.
Benchmarking ist ein iterativer Prozess. Markieren Sie Zeilen mit den Kontrollkästchen (Shift-Klick für einen Bereich) und nutzen Sie dann das ···-Menü, um auf eine Teilmenge zu wirken, ohne alles erneut auszuführen:
Jedes Szenario enthält ein Referenzergebnis — die erwartete Ausgabe für seine Entität — und ein Szenario kann erst dann als Benchmark verwendet werden, sobald diese Referenz verifiziert ist. Bis dahin erscheint es in keinem Durchlauf-Menü. Die Referenz ist die Grundlage für die Qualitätsbewertung: wie nah jedes Modell Feld für Feld herankommt und (bei Listen wie der Besetzung eines Films) wie viele der korrekten Einträge es tatsächlich gefunden hat. Sie legen sie — zusammen mit dem Judge-Modell, dem Embedding-Modell und der Strenge, mit der dagegen bewertet wird — direkt im Szenario-Editor fest.
Erstellen Sie es auf zwei Arten. Generieren Sie es: Hängen Sie ein Dokument an, das die korrekten Werte enthält (ein Datenblatt, eine offizielle Seite), aktivieren Sie die Websuche und führen Sie einige starke Modelle aus – sie extrahieren die Antwort aus Ihrer Quelle statt aus dem Gedächtnis, sodass das Ergebnis auf Fakten beruht und nicht auf Vermutungen. Oder fügen Sie ein bereits vorhandenes, bekannt gutes Ergebnis ein. So oder so überprüfen Sie das JSON, korrigieren alles Nötige und markieren es als verifiziert – eine ausdrückliche Bestätigung, dass dies die Gold-Antwort ist.
Da die Referenz fundiert ist und einmal von Menschen geprüft wurde, dient sie zugleich als vertrauenswürdiger Maßstab, den Sie über jedes Modell und jeden künftigen Lauf hinweg wiederverwenden.
Benchmarks finden Sie unter Modellverwaltung → Benchmarks (verfügbar für Organisationsinhaber und Administratoren). Erstellen und verwalten Sie dort Szenarien oder starten Sie einen Lauf an einer von vier Stellen: über die Schaltfläche Benchmark-Modelle in der Symbolleiste (alle aktiven Modelle in der Ansicht), über die Aktion Benchmark-Modelle in einer beliebigen Provider-Zeile (die aktiven Modelle dieses Providers), über das Dropdown Benchmark, das erscheint, wenn Sie Modelle im Modellbereich auswählen (die ausgewählten Modelle), oder über die Aktion Benchmark-Modell in einer beliebigen einzelnen Modellzeile.
Benchmark-Läufe führen echte LLM-Aufrufe durch und ziehen Credits auf Basis der tatsächlichen Nutzung ab, genau wie eine normale Anreicherung. Der Bestätigungsdialog zeigt Ihnen an, wie viele Modelle Sie ausführen werden, bevor Kosten entstehen. Jedes gespeicherte Ergebnis zeigt seine abgerechneten Kosten, sodass ein Benchmark zugleich als Werkzeug zum Kostenvergleich dient.