Multi-Modell-Fusion – Entity Enricher Dokumentation

Multi-Modell-Fusion

Wenn Sie dasselbe Enrichment über mehrere KI-Modelle hinweg ausführen, kann Entity Enricher die Ergebnisse zu einer einzigen, hochzuverlässigen Ausgabe fusionieren. Die Fusion erkennt Konflikte zwischen den Modellausgaben und löst sie mithilfe deterministischer Regeln oder LLM-gestützter Arbitrierung auf.

Fusion-Pipeline

Modellausgaben

Claude-Ergebnis

GPT-4-Ergebnis

Gemini-Ergebnis

Konflikterkennung

Jedes Feld
über alle Modelle hinweg vergleichen

Auflösung

Regelbasierte Zusammenführung

oder

LLM-Arbitrierung

Zusammengeführtes Ergebnis

Einzelne Ausgabe mit
Konflikt-Prüfprotokoll

Schritt 1: Konflikterkennung

Der Konfliktdetektor vergleicht jedes Feld über alle Modell-Outputs hinweg. Felder, bei denen alle Modelle übereinstimmen, werden unverändert übernommen. Felder, bei denen die Modelle nicht übereinstimmen, werden als Konflikte markiert, die aufgelöst werden müssen.

Vergleichsregeln nach Feldtyp

Typ	Vergleichsart	Übereinstimmung bedeutet
Skalar	Normalisierte exakte Übereinstimmung (getrimmt, in Kleinbuchstaben, gerundet)	Alle Werte nach der Normalisierung gleich
Mehrsprachig	Vergleich pro Sprache	Jeder Sprachschlüssel stimmt über alle Modelle hinweg überein
Array	Mengenvergleich (reihenfolgeunabhängig)	Dieselben Elemente unabhängig von der Reihenfolge
Objekt	Rekursiv pro Eigenschaft	Alle verschachtelten Eigenschaften stimmen überein
Null	Null entspricht fehlend	Als gleichwertig behandelt

Beispiel: Anreicherung von „Sanofi“ mit 2 Modellen

Claude-Ausgabe

revenue: 42.2
gmp_status: true
description: “Sanofi is a global...”

GPT-4-Ausgabe

revenue: 44.1
gmp_status: true
description: “Sanofi SA is a...”

Ergebnis: gmp_status = übereinstimmend | revenue = Konflikt (42.2 vs. 44.1) | description = Konflikt (unterschiedlicher Text)

Schritt 2: Konfliktlösung

Konflikte werden mit einer von zwei Methoden gelöst, je nachdem, ob Sie in der Seitenleiste ein Arbitrierungsmodell ausgewählt haben.

Option A

Regelbasierte Zusammenführung

Deterministische Regeln werden je nach Datentyp des Felds angewendet. Es sind keine zusätzlichen LLM-Aufrufe nötig – die Auflösung erfolgt sofort und kostenlos.

Feldtyp	Regel	Begründung
String	Mehrheitsentscheid; bei Gleichstand gewinnt der längste Wert	Mehr Details sind in der Regel besser
Zahl	Medianwert	Robust gegenüber Ausreißern
Boolean	Mehrheit; bei Gleichstand gewinnt true	Konservative Voreinstellung
Mehrsprachig	Mehrheitsabstimmung pro Sprache	Jede Sprache unabhängig aufgelöst
Array	Vereinigung aller Elemente	Alle Informationen beibehalten
Objekt	Rekursiv pro Feld	Regeln auf verschachtelte Felder anwenden
Null vs. Wert	Nicht-null bevorzugen	Fehlende Daten sind schlimmer als jeder Wert

Tie-Breaker: Bei Stimmengleichheit gewinnt der Wert des teureren Modells (als Näherung für die Leistungsfähigkeit), gefolgt von der alphabetischen Reihenfolge der Modellnamen.

Option B

LLM-Arbitrierung

Wenn Sie in der Seitenleiste ein Arbitrierungsmodell auswählen, werden Konflikte zur intelligenten Auflösung an ein LLM gesendet. Der Arbitrator erhält den Entity-Kontext, die Beschreibungen der Schema-Felder und alle widersprüchlichen Werte und trifft dann fundierte Entscheidungen.

Was die Arbitration zurückgibt

Ausgewählter WertDer Wert, den es für am genauesten hält

QuellmodellAus welchem Modell der gewählte Wert stammt

ReasoningWarum dieser Wert gegenüber Alternativen gewählt wurde

KonfidenzWie sicher es sich bei der Entscheidung ist (hoch, mittel, niedrig)

Fallback: Wenn das Arbitrierungsmodell fehlschlägt (Timeout, Fehler), greift das System automatisch auf eine regelbasierte Zusammenführung zurück, sodass Sie immer ein Ergebnis erhalten.

Schritt 3: Das zusammengeführte Ergebnis

Nach der Konfliktlösung erstellt das System ein einzelnes zusammengeführtes Ergebnis und speichert es als „Arbitrierung“-Datensatz in der Datenbank. Jedes zusammengeführte Ergebnis enthält einen Prüfpfad, sodass Sie nachvollziehen können, wie jeder Konflikt gelöst wurde.

Audit-Trail (Arbitrierungs-Metadaten)

Jedes zusammengeführte Ergebnis enthält Metadaten, die den Fusionsprozess dokumentieren:

“method”: “rule_based” | “llm”

“source_record_ids”: [“uuid-1”, “uuid-2”]

“total_fields”: 23

“agreed_fields”: 18

“conflicted_fields”: 5

“decisions”: [{ path, chosen_value, rule_used, ... }]

Was Sie in der Benutzeroberfläche sehen

Nach Abschluss der Fusion zeigt der Tab „Zusammengeführt“ im Ergebnispanel:

Zusammenfassungs-Header

Zeigt die Auflösungsmethode (regelbasiert oder LLM) sowie eine Zählung wie „18 übereinstimmend / 5 aufgelöst / 23 Felder insgesamt“.

Zusammengeführtes JSON

Das vollständige strukturierte Output, das übereinstimmende Werte und aufgelöste Konflikte in einem einzigen JSON-Dokument zusammenführt.

Konfliktbericht

Erweiterbare Karten für jeden Konflikt, die Folgendes anzeigen: den Feldpfad, das Badge der Auflösungsmethode (Mehrheitsentscheid, Median, Vereinigung usw.), alle Modellwerte mit hervorgehobenem gewähltem Wert und einen Begründungstext, falls LLM-Arbitrierung verwendet wurde.

Automatische Fusion bei der Batch-Verarbeitung

Bei der Batch-Anreicherung erfolgt die Fusion automatisch, wenn Sie zwei oder mehr Modelle auswählen. Sie müssen nicht manuell auf „Ergebnisse zusammenführen“ klicken – sobald alle Modelle für eine Entität abgeschlossen sind, läuft die Fusion und das zusammengeführte Ergebnis erscheint neben den einzelnen Modellausgaben.

Streaming-Fusion: Sowohl bei der Anreicherung einzelner Entitäten als auch bei der Batch-Anreicherung wird der Fusionsfortschritt über Server-Sent Events gestreamt. Sie sehen die Ereignisse fusion_started, conflicts_detected und fusion_completed in Echtzeit.

Regelbasiert vs. LLM-Arbitrierung: Wann was verwenden

Regelbasiert (kostenlos, sofort)

Überwiegend faktische/numerische Daten, bei denen die Abstimmungslogik gut funktioniert
Hohes Volumen oder Batch-Verarbeitung, bei denen die Kosten eine Rolle spielen
Einfache Schemas mit wenigen erwarteten Konflikten
Wenn Sie deterministische, reproduzierbare Ergebnisse wünschen

LLM-Arbitrierung (Zusatzkosten)

Komplexe Schemas, bei denen der Kontext für die Auflösung wichtig ist
Textdaten (Beschreibungen, Zusammenfassungen), bei denen Abstimmung nicht ausreicht
Wenn Sie erklärbare Entscheidungen mit Begründung benötigen
Kritische Anreicherungen, bei denen Genauigkeit die zusätzlichen Kosten wert ist

Multi-Modell-Anreicherung

Mehrere Modelle parallel ausführen

Semantic IDs

Dieselbe Entität über Läufe hinweg abgleichen, nicht nur über Modelle

Anreicherungsablauf

Vollständiger Pipeline-Durchgang

Batch-Verarbeitung

Parallele Enrichments mit automatischer Fusion