Die Pre-flight-Klassifizierung überprüft, ob eine Entity dem erwarteten Schema-Typ entspricht, bevor die Anreicherung beginnt. Dieser optionale Schritt verhindert Halluzinationen und verschwendete Tokens, wenn Entities nicht Ihrem Schema entsprechen.
LLMs sind eifrig darin, zu helfen. Wenn man sie bittet, eine Entität anhand eines Schemas anzureichern, erzeugen sie strukturierte Ausgaben, selbst wenn die Entität überhaupt nicht zum Schematyp passt. Das führt zu halluzinierten Daten, die plausibel aussehen, aber völlig falsch sind.
Schema: „Planet“ — Entität: „Titan“
Das LLM behandelt Titan als Planeten und erfindet Daten: Umlaufzeit, Atmosphärenzusammensetzung, Anzahl der Monde – alles plausibel aussehend, aber falsch. Titan ist in Wirklichkeit ein Mond des Saturn.
Klassifizierung erkennt: „Nichtübereinstimmung — Titan ist ein Mond, kein Planet“
Die Anreicherungsmodelle erhalten diesen Kontext, setzen irrelevante Felder auf null und füllen nur Eigenschaften aus, die tatsächlich auf die Entität zutreffen.
Die Klassifizierung läuft als einzelner, schneller LLM-Aufruf, bevor Anreicherungsmodelle starten. Sie verwendet ein günstiges, schnelles Modell (wie Claude Haiku oder GPT-4o Mini), um die Kosten zu minimieren.
Die Entität entspricht dem Schematyp. Die Anreicherung wird mit hoher Zuverlässigkeit fortgesetzt.
Die Entität ist von einem anderen Typ, als das Schema erwartet. Die Klassifizierung erklärt, worum es sich bei der Entität tatsächlich handelt.
Die Entität kann nicht mit Sicherheit identifiziert werden. Das LLM verfügt nicht über genügend Informationen, um sie zu klassifizieren.
Es existieren mehrere gültige Interpretationen. Die Klassifizierung listet die Alternativen auf.
Die Klassifizierung ist rein beratend. Wenn der Klassifizierungsaufruf aus irgendeinem Grund fehlschlägt (Modellfehler, Zeitüberschreitung, Ratenbegrenzung), wird die Anreicherung normal ohne Klassifizierungskontext fortgesetzt. So verhindert der optionale Klassifizierungsschritt niemals den Abschluss der Anreicherung.
Die Klassifizierung ist für schnelle, kostengünstige Modelle ausgelegt. Sie sendet eine minimale Nutzlast (Schema-Name, Beschreibung und gekürzte Entitätsdaten) und erwartet eine kleine strukturierte Antwort. Die typischen Kosten sind ein Bruchteil der Anreicherung selbst — die Verbesserung der Genauigkeit ist es allemal wert.
Die Benutzeroberfläche zeigt den Klassifizierungsfortschritt in Echtzeit über Server-Sent Events an. Ein classification_started-Event wird ausgelöst, wenn die Prüfung beginnt, gefolgt von classification_completed mit dem Status, der Konfidenz und der Entitätsbeschreibung. Das Ergebnis erscheint als Banner über den Modellergebnissen.
Wenn Sie die Anreicherung während der Klassifizierungsphase abbrechen, stoppt der Auftrag sofort, ohne dass Anreicherungsmodelle gestartet werden. Es werden keine unnötigen Tokens verbraucht.
Suchen Sie im Schema-Editor oder in der Seitenleiste der Batch-Anreicherung nach dem Dropdown-Menü „Klassifizierung“. Wählen Sie ein schnelles, kostengünstiges Modell (Claude Haiku, GPT-4o Mini oder ähnlich). Die Klassifizierung wird für jede Entität automatisch vor Beginn der Anreicherung ausgeführt.
Bei Verwendung der REST API geben Sie das Feld classification_model in Ihrer Enrichment-Anfrage mit dem zusammengesetzten Schlüssel des Modells an (z. B. anthropic::claude-haiku-4-5).