KI-Schema-Generierung - Entity Enricher-Dokumentation

KI-Schema-Generierung

Generieren Sie strukturierte JSON-Schemas aus Beispieldaten mithilfe von KI, mit automatischer Selbstkorrektur und intelligenter Nachbearbeitung.

So funktioniert es

Die Schemagenerierung wandelt rohe Entitätsdaten in ein typisiertes, annotiertes JSON-Schema um, das genau definiert, welche Informationen bei der Anreicherung extrahiert werden sollen. Anstatt Schemas manuell zu schreiben, fügen Sie Beispiel-JSON ein und lassen die KI die Struktur analysieren, Typen ableiten, Fachbereiche zuweisen und Verbesserungen vorschlagen.

Die Generierungs-Pipeline

  1. Eingabe-Vorverarbeitung – Ihr Beispiel-JSON wird analysiert. Lokalisierte Objekte (wie {"en": "...", "fr": "..."}) werden zu einem einzelnen Wert reduziert, und die Anzahl der Eigenschaften bestimmt, wie viele Expertisebereiche zulässig sind.
  2. Prompt-Erstellung — Ein adaptiver System-Prompt wird basierend auf der Komplexität Ihrer Daten erstellt: ob sie verschachtelte Objekte enthalten, wie viele Eigenschaften sie haben und ob mehrsprachige Felder erkannt wurden.
  3. LLM-Generierung mit Selbstkorrektur – Die KI generiert das Schema. Schlägt eine der 8 Validierungsregeln fehl, werden die Fehler zur Korrektur an die KI zurückgesendet – insgesamt bis zu 6 Versuche.
  4. Nachbearbeitung — Deterministische Regeln verfeinern das Schema: nullable Felder werden markiert, leere Suchschlüssel geleert und Expertise-Metadaten gesammelt.
  5. Automatisches Speichern – Das generierte Schema wird automatisch gespeichert und per Content-Hashing dedupliziert, sodass identische Schemas nicht dupliziert werden.

Selbstkorrektur-Schleife

Die Selbstkorrektur-Schleife macht die Schema-Generierung zuverlässig. Nachdem die KI ein Schema erzeugt hat, durchläuft es einen Validator, der 8 Regeln zu Typkorrektheit, Fachbereichs-Zuordnung, Referenzintegrität und Datenvollständigkeit prüft. Schlägt eine Regel fehl, wird die spezifische Fehlermeldung an die KI zurückgesendet, damit sie das Problem im nächsten Versuch beheben kann.

Beispiel für Selbstkorrektur

Versuch 1Die KI generiert das Schema. Der Validator erkennt: revenue: Typkonflikt — Eingabe ist number, aber Schema sagt 'string'
WiederholenDer Fehler wird zusammen mit Kontext darüber, was schiefgelaufen ist, an die KI zurückgesendet.
Versuch 2Die KI korrigiert den Typ zu number. Alle 8 Regeln bestehen. Das Schema wird akzeptiert.

Dieser Ansatz ist weitaus zuverlässiger, als die KI im Prompt zu bitten, „auf Typen zu achten“. Der Validator erkennt konkrete Fehler und gibt der KI präzises Feedback, um sie zu beheben. Erfahren Sie mehr über jede Regel im Leitfaden Validierungsregeln.

Was das Schema enthält

Ein generiertes Schema ist mehr als eine einfache Typdefinition. Jede Eigenschaft enthält Metadaten, die den Anreicherungsprozess steuern:

Typ

JSON-Schema-Typ (string, number, integer, boolean, array, object)

Beschreibung

Kontextbezogene Beschreibung, die der KI mitteilt, welche Informationen zu finden sind

Expertise

Welche Expertendomäne (finanziell, regulatorisch usw.) diesen Wert liefert

Suchschlüssel

Ob dieses Feld die Entität identifiziert (Suche) oder Arrays dedupliziert (Zusammenführung)

Nullable

Ob das Feld null sein kann, wodurch unnötige Wiederholungen bei optionalen Daten vermieden werden

Mehrsprachig

Ob das Feld in mehreren Sprachen angereichert werden soll

Beibehalten

Ob der ursprüngliche Wert während der Anreicherung unverändert beibehalten werden soll

Beispiele

Realistische Beispielwerte, die die KI zum richtigen Format führen

Erkennung von Expertisebereichen

Die KI gruppiert Schema-Eigenschaften anhand ihrer semantischen Bedeutung in Expertisebereiche. Ein Schema für ein Pharmaunternehmen könnte beispielsweise Bereiche wie „Finanzanalyst“, „Regulierungsexperte“ und „Unternehmensinformationen“ enthalten. Diese Bereiche werden von der Multi-Expertise-Strategie genutzt, um parallele, spezialisierte LLM-Aufrufe für tiefergehende Ergebnisse durchzuführen.

Grenzwerte für die Anzahl der Fachgebiete

Die Anzahl der Fachbereiche wird basierend auf der Eigenschaftsanzahl Ihrer Daten automatisch begrenzt, um eine Überfragmentierung zu verhindern:

5 Eigenschaften
1 Domäne
12 Eigenschaften
2 Domänen
30 Eigenschaften
5 Domains
60 Eigenschaften
10 Domänen

Nachbearbeitung

Nachdem die KI ein gültiges Schema generiert hat, verfeinern es drei deterministische Nachbearbeitungsschritte auf Basis Ihrer tatsächlichen Eingabedaten:

Nullable-Erkennung

Felder mit Null-Werten in Ihrer Eingabe werden automatisch als nullable markiert, damit die KI keine Wiederholungen damit verschwendet, sie zu füllen.

Leeren leerer Suchschlüssel

Suchschlüssel-Markierungen werden bei Feldern mit leeren Werten (null, leerer String, Null) entfernt, da sie nicht zur Identifizierung der Entität beitragen können.

Expertise-Sammlung

Alle eindeutigen Fachgebiete werden aus dem Schema für Metriken und die Strategiekonfiguration erfasst.

KI-Schemabearbeitung

Nach der Generierung können Sie Schemas mit Anweisungen in natürlicher Sprache ändern. Geben Sie einen Befehl ein, und die KI wendet die Änderung an, während Ihre bestehende Schemastruktur erhalten bleibt. Jede Bearbeitung erzeugt außerdem 5 Vorschläge für weitere Verbesserungen.

Beispiel-Bearbeitungsbefehle

Fügen Sie ein Integer-Feld employee_count hinzu
Erstellen Sie ein verschachteltes Adressobjekt mit Stadt und Land
Französische Beschreibungen zu allen Textfeldern hinzufügen
Eine Referenz auf das Mutterunternehmen mit $defs definieren
Markieren Sie das Website-Feld als nullable

KI-Bearbeitungen werden mit einer Teilmenge der Generierungsregeln validiert (Typprüfung, Referenzintegrität, Expertise-Konsistenz), ohne einen Vergleich mit den Eingabedaten, da Sie Felder absichtlich hinzufügen oder entfernen können.

KI-Vorschläge

Sowohl die Schemagenerierung als auch die KI-Bearbeitung liefern 5 gezielte Vorschläge, die verschiedene Verbesserungskategorien abdecken:

DatenvollständigkeitFehlende Felder, die Ihre Entität anreichern könnten
DatenqualitätValidierungsmuster, Formatbeschränkungen
BeziehungenVerschachtelte Strukturen, Entity-Referenzen über $defs
InternationalisierungMehrsprachige Übersetzungen, Locale-Unterstützung
GeschäftskontextFachgebietsspezifische Felder und Expertise-Gruppierungen

Vorschläge erscheinen als anklickbare Chips im Schema-Editor – klicken Sie auf einen, um die KI-Bearbeitungseingabe automatisch auszufüllen und anzuwenden.

Nächste Schritte