Benchmark-Bewertung - Entity Enricher Dokumentation

Benchmark-Bewertung

Die Bewertung macht aus einem Benchmark statt „das JSON per Augenmaß prüfen“ eine objektive Zahl. Das Ergebnis jedes Modells wird anhand einer Gold-Referenz — der erwarteten Ausgabe — benotet und ergibt Vollständigkeit, Korrektheit und einen Gesamtqualitätswert, nach dem Sie sortieren können.

Die Goldreferenz

Die Bewertung braucht etwas, wogegen sie bewerten kann. Jedes Szenario enthält eine Referenzausgabe: die korrekte Antwort für seine eine feste Entität. Erstellen Sie sie, indem Sie mit starken Modellen generieren (Websuche + ein Source-of-Truth-Dokument), ein bekanntermaßen gutes Ergebnis einfügen und es anschließend von Hand bearbeiten — und markieren Sie sie als verifiziert, sobald Sie ihr vertrauen. Eine verifizierte Referenz ist überhaupt erforderlich, um das Szenario zu benchmarken, sodass es immer etwas zum Benoten gibt. Wenn Sie die Referenz später bearbeiten — oder die Bewertungskonfiguration des Szenarios ändern — werden bestehende Bewertungen als veraltet markiert, bis Sie neu bewerten.

Wie Werte verglichen werden

Das Kernproblem: zwei korrekte Antworten können unterschiedlich geschrieben sein. Ein Modell, das einen Schauspieler „R. Downey Jr.“ statt „Robert Downey Jr.“ nennt, liegt nicht falsch. Daher wird jedes Feld mit einer gestuften Leiter verglichen — zuerst am günstigsten und sichersten, und nur bei Bedarf eskalierend:

Exakt & normalisiert

Identische Werte stimmen überein. Ebenso Werte, die sich nur in Groß-/Kleinschreibung, umgebendem Leerraum oder numerischer Genauigkeit unterscheiden ("Acme" = "ACME", 4.0 = 4). Kostenlos und vollständig deterministisch.

Embedding-Ähnlichkeit

Bei Text werden Kandidat und Referenz eingebettet und über die Kosinus-Ähnlichkeit verglichen. Oberhalb des Schwellenwerts gelten sie als identisch – eine gültige alternative Schreibweise wie „R. Downey Jr.“ gegenüber „Robert Downey Jr.“ ist also ein Treffer und kein Fehler. Datumsangaben bilden die Ausnahme: Sie werden als Kalenderwerte verglichen, niemals über Ähnlichkeit, sodass ein knapp falsches Datum („1972-03-14“ gegenüber „1972-03-24“) eine klare Abweichung ist statt eines trügerisch hohen Kosinuswerts. Boolesche Werte sind ebenfalls exakt oder gar nicht.

LLM-Richter

Werte, die sich anhand der Ähnlichkeit nicht eindeutig bestimmen lassen – alle Freitextfelder wie Zusammenfassungen und Beschreibungen sowie jede nicht identische Zahl – werden an ein Bewertungsmodell (Judge) gesendet, das auf einer Skala von 0–100 bewertet, wie gut die Antwort die Bedeutung der Referenz erfasst. Es belohnt eine korrekte, anders oder knapper formulierte Antwort und vergibt einer Zahl Teilpunkte, wenn das Feld dies zulässt (ein Molekulargewicht von 273,37 vs. 273,35, eine Halbwertszeit von 12 vs. 15), während es sie dort weiterhin als falsch wertet, wo Genauigkeit zählt (ein Erscheinungsjahr von 2020 vs. 2023). Ohne Bewertungsmodell greift Freitext auf einen kontinuierlichen Ähnlichkeitswert zurück, und eine nicht identische Zahl ist schlicht eine Abweichung.

Die Einstellung Strenge steuert den Embedding-Schwellenwert: Je höher der Wert, desto ähnlicher müssen zwei unterschiedlich geschriebene Werte sein, um als gleich zu gelten. Die Strenge, das optionale Bewertungsmodell und das Embedding-Modell werden alle im Szenario festgelegt – nicht bei jeder Bewertung neu gewählt –, sodass jedes Modell identisch bewertet wird und die Ergebnisse vergleichbar bleiben.

Bewertung von Arrays (Listen von Elementen)

Listen – die Besetzung eines Films, die Nebenwirkungen eines Medikaments – sind der Bereich, in dem sich Modelle am stärksten unterscheiden: Ein kleines Modell findet vielleicht 4 Schauspieler, wo ein starkes 15 findet. Die Reihenfolge spielt keine Rolle, und mehr korrekte Einträge zu finden sollte gewinnen. Deshalb werden Arrays als Menge bewertet, nicht Position für Position:

Jedes Kandidatenelement wird nach derselben Rangfolge wie die Felder einem Referenzelement zugeordnet, günstigstes zuerst: über sein Schlüsselfeld, dann über identischen Text, dann über Embedding-Ähnlichkeit und schließlich — für den paraphrasierten Rest — über einen einzigen LLM-Mengenabgleich-Aufruf, der die verbleibenden Elemente in einem Zug ausrichtet (nur wenn das Scenario einen Judge hat).
Recall belohnt Vollständigkeit — 15 von 15 zu finden schlägt 4 von 15.
Precision bestraft erfundene Einträge — ein halluzinierter zusätzlicher Schauspieler senkt den Score.
F1 kombiniert beide, und jedes zugeordnete Paar wird Feld für Feld bewertet, sodass „richtiger Akteur, falsche Rolle“ trotzdem gegen Sie zählt.

Erweitern Sie eine Ergebniszeile, um genau zu sehen, welche Einträge übereinstimmten, verfehlt wurden oder halluziniert waren.

Die Bewertung lesen

Eine einzelne Zahl verbirgt zu viel, daher enthält jedes Ergebnis Teilbewertungen:

Vollständigkeit – hat das Modell ausgefüllt, was die Referenz ausgefüllt hat? (fehlende Daten schaden hier)
Korrektheit – von dem, was es ausgefüllt hat, wie viel ist richtig?
Halluzination – wie viel hat es erfunden, das die Referenz nicht stützt?
Gesamt — eine gewichtete Mischung, bei der Identifikator-(Schlüssel-)Felder stärker gewichtet werden.

Die aufklappbare Zeile zeigt die Aufschlüsselung pro Feld: Kandidat vs. Referenz, welche Stufe der Leiter entschieden hat und – sofern relevant – die Ähnlichkeit.

Wenn ein Szenario ein Modell mehr als einmal ausführt (Wiederholungen), wird jeder Durchlauf einzeln bewertet, und die Zeile zeigt die mittlere Qualität sowie eine Konsistenzspanne (niedrigster–höchster der Durchläufe) — so ist ein Modell, das im Durchschnitt richtig, aber unbeständig ist, leicht zu erkennen. Die angezeigte Ausgabe ist der nach Qualität mittlere Durchlauf.

Kosten & was ausgeführt wird

Die Bewertung ist ein separater Durchlauf über bereits gespeicherte Ergebnisse — sie reichert nie erneut an und bezahlt daher nie erneut für die getesteten Modelle. Sie bettet allerdings Text ein, um Werte zu vergleichen (und führt den Judge aus, falls das Szenario einen hat), was je nach Nutzung Credits abzieht. Dies geschieht automatisch am Ende jedes Durchlaufs und erneut, wann immer Sie neu bewerten. Wenn für Ihre Organisation kein Embedding-Modell konfiguriert ist (und das Szenario keine Überschreibung festlegt), läuft die Bewertung trotzdem, greift aber nur auf exakte Übereinstimmung zurück (alternative Schreibweisen zählen dann als Nichtübereinstimmungen) und weist darauf hin.

Wo Sie es finden

Legen Sie unter Modellverwaltung → Benchmarks eine Referenz im Szenario-Editor fest und überprüfen Sie sie (und wählen Sie dort das Judge-Modell, das Embedding-Modell und die Strenge). Von da an bewertet jeder Lauf automatisch seine erfolgreichen Ergebnisse – eine sortierbare Spalte Qualität füllt sich ohne zusätzlichen Schritt. Verwenden Sie Ergebnisse neu bewerten (die Schaltfläche in der Kopfzeile oder das Menü ···), um nach dem Bearbeiten der Referenz oder der Bewertungskonfiguration neu zu bewerten.

Modell-Benchmarks

Gespeicherte Szenarien, Durchläufe sowie Ausgabe und Kosten im direkten Vergleich.

Semantic IDs

Die Embedding-Auflösung, die auch den Äquivalenzabgleich antreibt.