Anreicherungsablauf - Entity Enricher-Dokumentation

Anreicherungsablauf

Eine Schritt-für-Schritt-Anleitung dazu, wie Entity Enricher eine einzelne Entität verarbeitet – von der Eingabe über die Klassifizierung und die parallele Modellausführung bis hin zur strukturierten Ausgabe.

Die Pipeline auf einen Blick

Eingabe

Entitäts-JSON
+ Schema

Klassifizierung

Optionale
Typprüfung

Parallele Modelle

Claude

Finanzwesen
Regulatorik
Allgemein

GPT-4

Finanzwesen
Regulatorik
Allgemein

Validieren

Typprüfung
Selbstkorrektur

Ausgabe

Strukturiert
JSON pro Modell

Schritt 1: Anreicherung konfigurieren

Öffnen Sie die Seite des Schema-Editors und richten Sie Ihre Anreicherung ein. Ein Workflow-Stepper führt Sie durch die Pipeline-Phasen: Beispieldaten, Schema, Anreicherung und Ergebnisse.

Schema-Panel (links)

Fügen Sie ein Beispiel-JSON ein, um automatisch ein Schema zu generieren, und erkunden Sie anschließend den interaktiven Eigenschaftsbaum. Bearbeiten Sie Eigenschaften, fügen Sie Fachbereiche hinzu und markieren Sie Felder als Suchschlüssel oder als beizubehalten.

Anreicherungsbereich (rechts)

Anreicherungsoptionen konfigurieren (Strategie, Modelle, Sprachen, Klassifizierung sowie das Antwortschema und die Umschalter für strikte strukturierte Ausgabe) und Entitäts-Suchschlüssel ausfüllen (Name, Website, Land usw.), um die Entität zu identifizieren.

Ergebnisbereich

Zeigt Echtzeit-Fortschritt und Ergebnisse für jedes Modell. Bei Verwendung mehrerer Modelle erscheint für die Fusion eine Schaltfläche „Ergebnisse zusammenführen“.

Schritt 2: Vorab-Klassifizierung (optional)

Wenn Sie ein Klassifizierungsmodell ausgewählt haben, wird zunächst ein schneller, kostengünstiger LLM-Aufruf ausgeführt, um zu prüfen, ob die Entität dem Schema-Typ entspricht. Dadurch wird vermieden, dass Tokens für die Anreicherung verschwendet werden, wenn die Entität nicht passt. Mehr dazu in der Klassifizierungs-Dokumentation.

Nicht blockierend: Wenn die Klassifizierung aus irgendeinem Grund fehlschlägt, wird die Anreicherung normal fortgesetzt. Die Klassifizierung ist rein informativ — sie liefert Kontext für die Anreicherungs-Prompts, blockiert die Pipeline aber niemals.

Schritt 3: Strategieausführung

Jedes ausgewählte Modell verarbeitet die Entity mit Ihrer gewählten Strategie. Wenn mehrere Modelle ausgewählt sind, laufen sie parallel über die Provider hinweg (Claude und GPT-4 laufen gleichzeitig), während Modelle desselben Providers nacheinander ausgeführt werden, um Rate-Limits einzuhalten.

Multi-Expertise-Beispiel (3 Bereiche)

Schema nach Fachbereich aufteilen

Eigenschaften sind nach ihrem Fachbereich gruppiert: Finanzfelder, Regulierungsfelder, allgemeine Felder.

Parallele LLM-Aufrufe ausführen

Jede Expertise erhält ihren eigenen fokussierten Prompt mit nur den relevanten Schemaeigenschaften. Alle laufen gleichzeitig.

Ergebnisse schrittweise zusammenführen

Sobald eine Expertise abgeschlossen ist, wird ihre Ausgabe in das akkumulierte Ergebnis zusammengeführt. Sie sehen Teilergebnisse in Echtzeit.

Beibehaltungslogik anwenden

Ursprüngliche Werte für Felder, die als 'preserve' markiert sind, werden wiederhergestellt, sodass Ihre Eingabedaten intakt bleiben.

Schritt 4: Validierung und Selbstkorrektur

Jede LLM-Antwort wird in Echtzeit gegen Ihr Schema validiert. Wenn die Ausgabe nicht mit den erwarteten Typen oder Einschränkungen übereinstimmt, sendet das System die Fehler automatisch zur Korrektur an das LLM zurück.

Was automatisch korrigiert wird:

String statt Zahl

„42.2“ wird zu 42.2

Indizierte Objekte als Arrays

{"0": "a", "1": "b"} wird zu ["a", "b"]

String-Nullwerte

„null“ oder „None“ wird zu echtem null

Fehlende Pflichtfelder

Fehler zurückgesendet, das LLM füllt sie aus

Bis zu 5 automatische Wiederholungsversuche pro LLM-Aufruf. Jeder Wiederholungsversuch enthält den konkreten Validierungsfehler, damit das LLM genau weiß, was zu beheben ist.

Ausgabe an der Quelle erzwingen

Zwei optionale Schalter bitten den Anbieter, die Ausgabe zu beschränken, bevor sie zurückkommt, sodass von vornherein weniger Antworten korrigiert werden müssen. Beide gelten nur für Modelle, die sie unterstützen; alles greift weiterhin auf die oben beschriebene Validierungs- und Wiederholungsschleife zurück.

Antwortschema

Sendet Ihr Schema über den nativen Response-Schema-Kanal des Providers, sodass das JSON serverseitig erzwungen wird. Standardmäßig deaktiviert – fähige Modelle nutzen andernfalls den Tool-Call-Kanal.

Strikte strukturierte Ausgabe

Beschränkt die Dekodierung auf das Schema (keine Abweichung) auf dem jeweils verwendeten strukturierten Kanal. Standardmäßig aktiviert; wird von Modellen, die es nicht erzwingen können, stillschweigend ignoriert.

Schritt 5: Echtzeit-Streaming

Entity Enricher nutzt Server-Sent Events (SSE), um den Fortschritt in Echtzeit zu streamen. Sie müssen nicht warten, bis alle Modelle fertig sind – Ergebnisse erscheinen nach und nach, sobald jeder Expertisebereich oder jedes Modell abgeschlossen ist.

Ereignis-Zeitleiste (Beispiel mit 2 Modellen, 3 Expertisebereichen)

0.0sstartedJob beginnt, 2 Modelle in der Warteschlange

0.1sclassification_startedPre-flight-Prüfung beginnt

0.8sclassification_completedEntität als "Übereinstimmung" bestätigt (95 %)

0.9smodel_startedClaude und GPT-4 starten parallel

1.2sexpertise_completedClaude: Finanzdaten fertig, Teilergebnis gestreamt

1.5sexpertise_completedClaude: Allgemeines fertig, Ergebnis aktualisiert

1.8sexpertise_completedClaude: Regulatorisches fertig, vollständiges Ergebnis bereit

1.9smodel_completedClaude hat mit vollständiger strukturierter Ausgabe abgeschlossen

2.5smodel_completedGPT-4 mit vollständiger strukturierter Ausgabe abgeschlossen

2.5scompletedAlle Modelle fertig, Stream schließt

Schritt 6: Ergebnisse prüfen

Jedes Modell erhält ein eigenes Ergebnisfeld, das die strukturierte JSON-Ausgabe, Fortschrittsabzeichen pro Expertise-Domäne, Token-Verbrauch, Kosten und Verarbeitungszeit anzeigt. Bei Verwendung der Mehrfach-Expertise-Strategie werden die Expertise-Abzeichen in Echtzeit aktualisiert, sobald eine Domäne abgeschlossen ist.

Was Sie pro Modell sehen:

Status-Badge — Wartend, Läuft, Erfolgreich, Fehlgeschlagen oder Teilweise
Expertise-Badges – Farbige Pills, die den Fortschritt pro Bereich anzeigen (blau = läuft, grün = fertig, rot = fehlgeschlagen)
Progressives JSON — Die Ausgabe wird nach Abschluss jeder Expertise aktualisiert
Metriken — Verarbeitungszeit, Token-Anzahl, Kosten in USD
Fortschrittsprotokoll — Zeitgestempelte Einträge für jedes Ereignis

Umgang mit teilweisem Erfolg

Bei Verwendung der Multi-Expertise-Strategie können einige Expertisen fehlschlagen, während andere erfolgreich sind. Anstatt alles zu verwerfen, gibt Entity Enricher die zusammengeführte Ausgabe der erfolgreichen Expertisen mit dem Status „Teilweise“ zurück. Sie können dann nur die fehlgeschlagenen Expertisen erneut ausführen, ohne das gesamte Enrichment neu durchzuführen.

Beispiel: Wenn 2 von 3 Expertisebereichen erfolgreich sind, erhalten Sie strukturierte Ausgaben, die die erfolgreichen Bereiche abdecken. Der fehlgeschlagene Expertisebereich kann erneut versucht werden, und seine Ergebnisse werden in die bestehende Ausgabe zusammengeführt.

Was passiert als Nächstes?

Nach Abschluss der Anreicherung werden Ihre Ergebnisse zur späteren Verwendung auf der Seite „Datensätze“ gespeichert. Wenn Sie mehrere Modelle verwendet haben, können Sie die Ergebnisse mit Multi-Model Fusion zusammenführen.

Strategien

Einzeldurchlauf vs. Multi-Fachbereich

Klassifizierung

Pre-flight-Überprüfung des Entity-Typs

Fusion

Ergebnisse aus mehreren Modellen zusammenführen