Pre-flight-Klassifizierung – Entity Enricher Dokumentation

Pre-flight-Klassifizierung

Die Pre-flight-Klassifizierung überprüft, ob eine Entity dem erwarteten Schema-Typ entspricht, bevor die Anreicherung beginnt. Dieser optionale Schritt verhindert Halluzinationen und verschwendete Tokens, wenn Entities nicht Ihrem Schema entsprechen.

Warum vor dem Anreichern klassifizieren?

LLMs sind eifrig darin, zu helfen. Wenn man sie bittet, eine Entität anhand eines Schemas anzureichern, erzeugen sie strukturierte Ausgaben, selbst wenn die Entität überhaupt nicht zum Schematyp passt. Das führt zu halluzinierten Daten, die plausibel aussehen, aber völlig falsch sind.

Das Halluzinationsproblem
Ohne Klassifizierung

Schema: „Planet“ — Entität: „Titan“

Das LLM behandelt Titan als Planeten und erfindet Daten: Umlaufzeit, Atmosphärenzusammensetzung, Anzahl der Monde – alles plausibel aussehend, aber falsch. Titan ist in Wirklichkeit ein Mond des Saturn.

Mit Klassifizierung

Klassifizierung erkennt: „Nichtübereinstimmung — Titan ist ein Mond, kein Planet“

Die Anreicherungsmodelle erhalten diesen Kontext, setzen irrelevante Felder auf null und füllen nur Eigenschaften aus, die tatsächlich auf die Entität zutreffen.

So funktioniert es

Die Klassifizierung läuft als einzelner, schneller LLM-Aufruf, bevor Anreicherungsmodelle starten. Sie verwendet ein günstiges, schnelles Modell (wie Claude Haiku oder GPT-4o Mini), um die Kosten zu minimieren.

1
Schematyp und Entity-Daten senden
Das Klassifizierungsmodell erhält den Schemanamen, die Beschreibung und die Entitätsdaten (auf 3.000 Zeichen gekürzt, um die Kosten niedrig zu halten).
2
Strukturierte Klassifizierung erhalten
Das Modell gibt eine strukturierte Antwort zurück mit einem Status (Übereinstimmung, keine Übereinstimmung, unbekannt oder mehrdeutig), einer Beschreibung dessen, worum es sich bei der Entität tatsächlich handelt, dem Zuverlässigkeitsgrad und der Begründung.
3
Kontext in die Anreicherung einfügen
Das Klassifizierungsergebnis wird jedem Anreicherungs-Prompt als Abschnitt „Pre-flight Classification“ vorangestellt. Dadurch erhalten die Anreicherungsmodelle wichtigen Kontext über den Entitätstyp.

Vier Classification-Status

Abgleich

Die Entität entspricht dem Schematyp. Die Anreicherung wird mit hoher Zuverlässigkeit fortgesetzt.

Prompt-Effekt
Bestätigt den Entitätstyp und liefert den Anreicherungsmodellen zusätzlichen Kontext.
Beispiel
Schema „Pharmaceutical Company“, Entität „Sanofi“ – als Pharmaunternehmen bestätigt.
Abweichung

Die Entität ist von einem anderen Typ, als das Schema erwartet. Die Klassifizierung erklärt, worum es sich bei der Entität tatsächlich handelt.

Prompt-Effekt
Warnt Enrichment-Modelle, dass die Entität nicht übereinstimmt. Weist sie an, für irrelevante Felder null zu verwenden.
Beispiel
Schema „Planet“, Entität „Titan“ – als Mond des Saturn identifiziert, nicht als Planet.
Unbekannt

Die Entität kann nicht mit Sicherheit identifiziert werden. Das LLM verfügt nicht über genügend Informationen, um sie zu klassifizieren.

Prompt-Effekt
Weist Anreicherungsmodelle an, bei Unsicherheit null zu verwenden, anstatt zu raten.
Beispiel
Schema „Pharmaceutical Company“, Entität „XYZ Corp“ – nicht genügend Informationen, um den Entitätstyp zu bestimmen.
Mehrdeutig

Es existieren mehrere gültige Interpretationen. Die Klassifizierung listet die Alternativen auf.

Prompt-Effekt
Listet die möglichen Interpretationen auf und bittet die Anreicherungsmodelle, die wahrscheinlichste auszuwählen.
Beispiel
Schema „Company“, Entität „Mercury“ – könnte der Planet, das Element oder Mercury Insurance sein.

Schlüsseleigenschaften

Nicht blockierend

Die Klassifizierung ist rein beratend. Wenn der Klassifizierungsaufruf aus irgendeinem Grund fehlschlägt (Modellfehler, Zeitüberschreitung, Ratenbegrenzung), wird die Anreicherung normal ohne Klassifizierungskontext fortgesetzt. So verhindert der optionale Klassifizierungsschritt niemals den Abschluss der Anreicherung.

Kosteneffizient

Die Klassifizierung ist für schnelle, kostengünstige Modelle ausgelegt. Sie sendet eine minimale Nutzlast (Schema-Name, Beschreibung und gekürzte Entitätsdaten) und erwartet eine kleine strukturierte Antwort. Die typischen Kosten sind ein Bruchteil der Anreicherung selbst — die Verbesserung der Genauigkeit ist es allemal wert.

Echtzeit-Feedback

Die Benutzeroberfläche zeigt den Klassifizierungsfortschritt in Echtzeit über Server-Sent Events an. Ein classification_started-Event wird ausgelöst, wenn die Prüfung beginnt, gefolgt von classification_completed mit dem Status, der Konfidenz und der Entitätsbeschreibung. Das Ergebnis erscheint als Banner über den Modellergebnissen.

Abbrechbar

Wenn Sie die Anreicherung während der Klassifizierungsphase abbrechen, stoppt der Auftrag sofort, ohne dass Anreicherungsmodelle gestartet werden. Es werden keine unnötigen Tokens verbraucht.

Wann die Klassifizierung aktiviert werden sollte

Empfohlen
  • Schemas mit einem eng gefassten Entitätstyp (z. B. „Pharmaunternehmen“)
  • Eingabedaten, die gemischte Entitätstypen enthalten können
  • Batch-Enrichment mit Entities aus unterschiedlichen Quellen
  • Bei Verwendung teurer Enrichment-Modelle, wenn Sie Verschwendung vermeiden möchten
Nicht erforderlich
  • Generische Schemas, die jede Entität akzeptieren (z. B. „Organization“)
  • Kuratierte Eingabedaten, bei denen Sie den Entity-Typ steuern
  • Schnelle Iterationen, bei denen Geschwindigkeit wichtiger ist als Genauigkeit
  • Schemas ohne klare Definition des Entitätstyps

So aktivieren Sie es

Suchen Sie im Schema-Editor oder in der Seitenleiste der Batch-Anreicherung nach dem Dropdown-Menü „Klassifizierung“. Wählen Sie ein schnelles, kostengünstiges Modell (Claude Haiku, GPT-4o Mini oder ähnlich). Die Klassifizierung wird für jede Entität automatisch vor Beginn der Anreicherung ausgeführt.

Bei Verwendung der REST API geben Sie das Feld classification_model in Ihrer Enrichment-Anfrage mit dem zusammengesetzten Schlüssel des Modells an (z. B. anthropic::claude-haiku-4-5).