Multi-Modell-Fusion – Entity Enricher Dokumentation

Multi-Modell-Fusion

Wenn Sie dasselbe Enrichment über mehrere KI-Modelle hinweg ausführen, kann Entity Enricher die Ergebnisse zu einer einzigen, hochzuverlässigen Ausgabe fusionieren. Die Fusion erkennt Konflikte zwischen den Modellausgaben und löst sie mithilfe deterministischer Regeln oder LLM-gestützter Arbitrierung auf.

Fusion-Pipeline

Modellausgaben
Claude-Ergebnis
GPT-4-Ergebnis
Gemini-Ergebnis
Konflikterkennung
Jedes Feld
über alle Modelle hinweg vergleichen
Auflösung
Regelbasierte Zusammenführung
oder
LLM-Arbitrierung
Zusammengeführtes Ergebnis
Einzelne Ausgabe mit
Konflikt-Prüfprotokoll

Schritt 1: Konflikterkennung

Der Konfliktdetektor vergleicht jedes Feld über alle Modell-Outputs hinweg. Felder, bei denen alle Modelle übereinstimmen, werden unverändert übernommen. Felder, bei denen die Modelle nicht übereinstimmen, werden als Konflikte markiert, die aufgelöst werden müssen.

Vergleichsregeln nach Feldtyp
TypVergleichsartÜbereinstimmung bedeutet
SkalarNormalisierte exakte Übereinstimmung (getrimmt, in Kleinbuchstaben, gerundet)Alle Werte nach der Normalisierung gleich
MehrsprachigVergleich pro SpracheJeder Sprachschlüssel stimmt über alle Modelle hinweg überein
ArrayMengenvergleich (reihenfolgeunabhängig)Dieselben Elemente unabhängig von der Reihenfolge
ObjektRekursiv pro EigenschaftAlle verschachtelten Eigenschaften stimmen überein
NullNull entspricht fehlendAls gleichwertig behandelt
Beispiel: Anreicherung von „Sanofi“ mit 2 Modellen
Claude-Ausgabe
revenue: 42.2
gmp_status: true
description: “Sanofi is a global...”
GPT-4-Ausgabe
revenue: 44.1
gmp_status: true
description: “Sanofi SA is a...”
Ergebnis: gmp_status = übereinstimmend | revenue = Konflikt (42.2 vs. 44.1) | description = Konflikt (unterschiedlicher Text)

Schritt 2: Konfliktlösung

Konflikte werden mit einer von zwei Methoden gelöst, je nachdem, ob Sie in der Seitenleiste ein Arbitrierungsmodell ausgewählt haben.

Option A

Regelbasierte Zusammenführung

Deterministische Regeln werden je nach Datentyp des Felds angewendet. Es sind keine zusätzlichen LLM-Aufrufe nötig – die Auflösung erfolgt sofort und kostenlos.

FeldtypRegelBegründung
StringMehrheitsentscheid; bei Gleichstand gewinnt der längste WertMehr Details sind in der Regel besser
ZahlMedianwertRobust gegenüber Ausreißern
BooleanMehrheit; bei Gleichstand gewinnt trueKonservative Voreinstellung
MehrsprachigMehrheitsabstimmung pro SpracheJede Sprache unabhängig aufgelöst
ArrayVereinigung aller ElementeAlle Informationen beibehalten
ObjektRekursiv pro FeldRegeln auf verschachtelte Felder anwenden
Null vs. WertNicht-null bevorzugenFehlende Daten sind schlimmer als jeder Wert

Tie-Breaker: Bei Stimmengleichheit gewinnt der Wert des teureren Modells (als Näherung für die Leistungsfähigkeit), gefolgt von der alphabetischen Reihenfolge der Modellnamen.

Option B

LLM-Arbitrierung

Wenn Sie in der Seitenleiste ein Arbitrierungsmodell auswählen, werden Konflikte zur intelligenten Auflösung an ein LLM gesendet. Der Arbitrator erhält den Entity-Kontext, die Beschreibungen der Schema-Felder und alle widersprüchlichen Werte und trifft dann fundierte Entscheidungen.

Was die Arbitration zurückgibt
Ausgewählter WertDer Wert, den es für am genauesten hält
QuellmodellAus welchem Modell der gewählte Wert stammt
ReasoningWarum dieser Wert gegenüber Alternativen gewählt wurde
KonfidenzWie sicher es sich bei der Entscheidung ist (hoch, mittel, niedrig)

Fallback: Wenn das Arbitrierungsmodell fehlschlägt (Timeout, Fehler), greift das System automatisch auf eine regelbasierte Zusammenführung zurück, sodass Sie immer ein Ergebnis erhalten.

Schritt 3: Das zusammengeführte Ergebnis

Nach der Konfliktlösung erstellt das System ein einzelnes zusammengeführtes Ergebnis und speichert es als „Arbitrierung“-Datensatz in der Datenbank. Jedes zusammengeführte Ergebnis enthält einen Prüfpfad, sodass Sie nachvollziehen können, wie jeder Konflikt gelöst wurde.

Audit-Trail (Arbitrierungs-Metadaten)

Jedes zusammengeführte Ergebnis enthält Metadaten, die den Fusionsprozess dokumentieren:

“method”: “rule_based” | “llm”
“source_record_ids”: [“uuid-1”, “uuid-2”]
“total_fields”: 23
“agreed_fields”: 18
“conflicted_fields”: 5
“decisions”: [{ path, chosen_value, rule_used, ... }]

Was Sie in der Benutzeroberfläche sehen

Nach Abschluss der Fusion zeigt der Tab „Zusammengeführt“ im Ergebnispanel:

1
Zusammenfassungs-Header
Zeigt die Auflösungsmethode (regelbasiert oder LLM) sowie eine Zählung wie „18 übereinstimmend / 5 aufgelöst / 23 Felder insgesamt“.
2
Zusammengeführtes JSON
Das vollständige strukturierte Output, das übereinstimmende Werte und aufgelöste Konflikte in einem einzigen JSON-Dokument zusammenführt.
3
Konfliktbericht
Erweiterbare Karten für jeden Konflikt, die Folgendes anzeigen: den Feldpfad, das Badge der Auflösungsmethode (Mehrheitsentscheid, Median, Vereinigung usw.), alle Modellwerte mit hervorgehobenem gewähltem Wert und einen Begründungstext, falls LLM-Arbitrierung verwendet wurde.

Automatische Fusion bei der Batch-Verarbeitung

Bei der Batch-Anreicherung erfolgt die Fusion automatisch, wenn Sie zwei oder mehr Modelle auswählen. Sie müssen nicht manuell auf „Ergebnisse zusammenführen“ klicken – sobald alle Modelle für eine Entität abgeschlossen sind, läuft die Fusion und das zusammengeführte Ergebnis erscheint neben den einzelnen Modellausgaben.

Streaming-Fusion: Sowohl bei der Anreicherung einzelner Entitäten als auch bei der Batch-Anreicherung wird der Fusionsfortschritt über Server-Sent Events gestreamt. Sie sehen die Ereignisse fusion_started, conflicts_detected und fusion_completed in Echtzeit.

Regelbasiert vs. LLM-Arbitrierung: Wann was verwenden

Regelbasiert (kostenlos, sofort)
  • Überwiegend faktische/numerische Daten, bei denen die Abstimmungslogik gut funktioniert
  • Hohes Volumen oder Batch-Verarbeitung, bei denen die Kosten eine Rolle spielen
  • Einfache Schemas mit wenigen erwarteten Konflikten
  • Wenn Sie deterministische, reproduzierbare Ergebnisse wünschen
LLM-Arbitrierung (Zusatzkosten)
  • Komplexe Schemas, bei denen der Kontext für die Auflösung wichtig ist
  • Textdaten (Beschreibungen, Zusammenfassungen), bei denen Abstimmung nicht ausreicht
  • Wenn Sie erklärbare Entscheidungen mit Begründung benötigen
  • Kritische Anreicherungen, bei denen Genauigkeit die zusätzlichen Kosten wert ist