Grundkonzepte - Entity Enricher Dokumentation

Grundkonzepte

Entity Enricher verwandelt zwei Arten von Wissen in strukturierte, validierte Daten: das, was Large Language Models bereits wissen, und das, was ungelesen in Ihren eigenen Archiven liegt – PDF-Dokumente, Bilder, Audioaufnahmen, Office-Dateien. Jedes extrahierte Objekt erhält eine stabile semantische Identität, sodass sich Anreicherungen zu einem kohärenten Informationssystem ansammeln statt zu einem Haufen einmaliger Ergebnisse.

Die Kernidee

Betrachten Sie LLMs als destilliertes menschliches Wissen — Milliarden von Dokumenten, Datenbanken und Webseiten, komprimiert in abfragbare neuronale Netze. Entity Enricher bietet die Schnittstelle, um dieses Wissen in einem strukturierten, zuverlässigen Format zu extrahieren, das zu Ihrem Datenmodell passt. Und da moderne Modelle auch PDFs lesen, Bilder sehen und Audio hören können, extrahiert dieselbe Schnittstelle Struktur aus Ihren eigenen Inhalten: den Verträgen, Berichten, Scans und Aufnahmen, die Ihr Unternehmen über Jahre hinweg angesammelt hat.

Ihre Daten & Archive
Teilweise Datensätze
Rohe Bezeichner
PDFs & Scans
Bilder & Audio
Schema + LLM
„Was möchte ich wissen?“
Ihr Informationssystem
Strukturierte Profile
Klassifizierungen
Mehrsprachige Felder
Stabile semantische IDs

Zwei Wissensquellen

Jede Anreicherung greift auf eine oder beide dieser Quellen zurück. Sie ergänzen einander: Das Modell liefert Weltwissen und logisches Denken; Ihre Dokumente liefern die Fakten, die nur innerhalb Ihrer Organisation existieren.

1. Das Trainingswissen des Modells

Öffentliche Fakten über Unternehmen, Medikamente, Orte, Produkte, Vorschriften — alles, was das Modell während des Trainings gelernt hat. Geben Sie ihm einen Identifikator (einen Namen, eine Website) und ein Schema, und es füllt den Rest aus: Branche, Gründungsjahr, Hauptsitz, Wirkmechanismen. Kein Dokument erforderlich.

2. Ihre unstrukturierten Archive

Das Wissen, das nie in eine Datenbank gelangt ist: Verträge, Rechnungen, Prüfberichte, gescannte Formulare, Produktfotos, aufgezeichnete Anrufe. Hängen Sie sie an eine Anreicherung an, und das Modell extrahiert die Felder Ihres Schemas direkt aus deren Inhalt – ohne manuelles OCR, Transkription oder Kopieren und Einfügen.

Siehe Dokumentanhänge für unterstützte Formate und Übermittlungsmodi.

Drei Säulen

1. Das Schema: Ihre Frage an die Wissensdatenbank

Ein Schema ist nicht nur eine Datenstruktur – es ist eine formalisierte Frage, die Sie an das gesammelte Wissen der Menschheit oder an ein bestimmtes Dokument richten. Wenn Sie ein Schema mit Eigenschaften wie companyName, industry und headquarters definieren, fragen Sie im Grunde: „Nennen Sie mir bei gegebener Unternehmenskennung den Namen, die Branche, in der es tätig ist, und den Sitz des Hauptsitzes.“

Schema-KonzeptZweck
EigenschaftenDie konkreten Fakten, die Sie extrahieren möchten
TypenDas von Ihnen erwartete Format (String, Zahl, Objekt, Array)
ExpertisebereicheWelcher Spezialist antworten soll (pharmazeutisch, finanziell, geografisch)
SuchschlüsselBezeichner, die helfen, die Entität in der Wissensdatenbank zu finden
Semantic IDEine stabile, organisationsbezogene Identität, damit dasselbe reale Objekt über Anreicherungen und Ihre anderen Systeme hinweg erkannt wird
BeibehaltenFelder, die unverändert aus Ihrer Eingabe übernommen werden
MehrsprachigFelder, die in jeder Sprache bereitgestellt werden, in der Sie arbeiten – eine erstklassige Funktion, kein nachträglich angefügter Übersetzungsschritt

2. Das LLM: Abfragbares Wissen, multimodaler Reader

Large Language Models stellen eine neue Art von Wissensbasis dar. Anders als herkömmliche Datenbanken, die exakte Treffer auf gespeicherten Datensätzen liefern, verstehen LLMs den Kontext, ziehen Schlüsse aus unvollständigen Daten und verallgemeinern aus Mustern. Und sie sind nicht mehr auf Text beschränkt: Modelle mit Bildverarbeitung lesen Bilder und gescannte Seiten, PDF-fähige Modelle verarbeiten ganze Dokumente und Modelle mit Audiofähigkeit hören Aufnahmen an.

Entity Enricher behandelt mehrere LLMs als unterschiedliche Wissensperspektiven. Jeder Provider bringt seine eigenen Stärken mit – Claude glänzt bei nuanciertem Denken, GPT-4 verfügt über breites Wissen, Gemini bietet mehrsprachige Tiefe und lokale Ollama-Modelle halten Ihre Daten privat.

Wenn Sie dieselbe Anreicherung über mehrere Anbieter ausführen, können Sie Antworten auf ihre Konfidenz vergleichen, einen Konsens aus mehreren Experten aggregieren und Kosten gegen Qualität abwägen. Erfahren Sie mehr dazu unter Multi-Modell-Anreicherung.

3. Die Anreicherung: Strukturierte Wissensextraktion

Anreicherung ist der Prozess, bei dem die Entität anhand von Suchschlüsseln identifiziert wird, relevantes Wissen aus dem LLM und allen angehängten Dokumenten abgerufen wird, die Antwort gemäß Ihrem Schema strukturiert wird, validiert wird, dass die Ausgabe den erwarteten Typen entspricht, Ihre Originaldaten dort, wo angegeben, erhalten bleiben und schließlich die Identität aufgelöst wird — indem jedem Objekt seine stabile semantische ID zugewiesen wird.

Eingabe
{ "name": "Novartis", "website": "novartis.com" }
Schlüssel extrahieren → LLM abfragen → Validieren → Identität auflösen
Ausgabe
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Von Anreicherungen zu einem Informationssystem

Jede Anreicherung ist unabhängig. Fragen Sie zweimal, und dasselbe reale Objekt kann unterschiedlich beschrieben zurückkommen — „Acme Inc.“ an einem Tag, „Acme Incorporated“ am nächsten; eine Arzneimittelnebenwirkung als „Headache“, „Céphalée“ oder „Cephalalgia“, je nach Sprache oder Modell. Um wirklich auf angereicherten Daten aufzubauen, benötigen Sie eine stabile Kennung für dieselbe Entität.

Eine semantische ID ist ein organisationsspezifischer Bezeichner, den Entity Enricher einem Objekt anhand seiner Schlüsselfelder zuweist – abgeglichen nach Bedeutung, nicht nach exakter Schreibweise. Dieselbe Entität wird über Anreicherungen, Modelle, Sprachen und Zeit hinweg derselben ID zugeordnet. Sie wird automatisch nach dem Modelllauf vergeben – niemals vom LLM erfunden – und kann sich auf jedem Objekt befinden: der gesamten Entität, einem verschachtelten Objekt oder jedem Element einer Liste.

Anreicherungslauf #1
„Acme Inc.“
dieselbe semantische ID
cpt_abc123
Durchlauf #2 – später, anderes Modell oder andere Sprache
„Acme Incorporated“

Das verwandelt einen Strom von Anreicherungen in ein Informationssystem, das Sie ausbauen und abfragen können:

VerwendenWas es ermöglicht
VerbindungsschlüsselEin stabiler Schlüssel, um angereicherte Datensätze mit Ihrem Data Warehouse, CRM oder Stammdatensystem abzugleichen
DeduplizierungFast-Duplikate, die über Batches, Modelle oder Jahre von Dokumenten hinweg entstehen, zu einer Identität zusammenführen
AbgleichGeben Sie eine bekannte semantische ID erneut ein, damit neue Fakten der bereits verfolgten Entität zugeordnet werden, anstatt eine neue zu erzeugen
WissensgraphObjekte, auf die aus mehreren Records verwiesen wird, laufen in einem Knoten zusammen — Beziehungen werden abfragbar

Wie die Auflösung funktioniert (Exact-Match-Cache, Embeddings, Ähnlichkeitsschwellen), wird unter Semantic IDs erläutert.

Jahrzehnte an Archiven durchforsten

Die meisten Unternehmen sitzen auf einem Archiv, das nie strukturiert wurde: Netzlaufwerke voller Verträge und Berichte, gescanntes Papier, E-Mail-Anhänge, aufgezeichnete Meetings. Dieses Archiv ist eine Datenbank – es hat nur nie Zeilen und Spalten bekommen. Die Kombination aus Anhängen (Dokumente als Wissensquelle), Batch-Anreicherung (parallele Verarbeitung) und semantischen IDs (Deduplizierung über den gesamten Korpus) macht genau das daraus.

Archivdateien
An Anreicherung anhängen
Schema als Extraktionsfrage
Validierte strukturierte Datensätze
Semantische Identität & Dedup
Ihre Datenbank

Siehe Batch-Anreicherung für den detaillierten Workflow.

Über Text hinaus: Multimodale Quellen

Strukturiertes Wissen steckt nicht nur in Text. Entity Enricher akzeptiert die Formate, die Ihr Archiv tatsächlich enthält, und leitet jedes an Modelle weiter, die es lesen können.

PDF-Dokumente
Vollständige Dokumente mit Layout, Tabellen und Abbildungen — nativ von PDF-fähigen Modellen gelesen
Bilder
Fotos, Scans, Diagramme, Produktaufnahmen – von Vision-Modellen interpretiert, ohne separaten OCR-Schritt
Audio
Aufgezeichnete Anrufe, Meetings und Sprachnotizen – direkt von audiofähigen Modellen gehört
Office & Text
Word, Excel, PowerPoint, HTML, CSV, Markdown – Text serverseitig extrahiert und eingebettet

Zwei Übermittlungsmodi machen das möglich. Im Binärmodus gelangen die Originalbytes an das Modell, sodass bei der Umwandlung nichts verloren geht – das Layout einer Tabelle, das Detail eines Fotos, die Worte eines Sprechers. Im Inline-Text-Modus wird der Text einmal beim Upload extrahiert und in jeden Prompt eingebettet, was mit jedem Modell unabhängig von seinen Fähigkeiten funktioniert.

Fähigkeitsbewusstes Routing bedeutet, dass eine Datei nur Modelle erreicht, die sie tatsächlich verarbeiten können — Sie werden vor dem Start einer Anreicherung gewarnt, nicht erst nach deren Fehlschlag. Formate und Modi werden unter Dokumentanhänge beschrieben.

Expertisebereiche: Den richtigen Spezialisten konsultieren

Nicht alles Wissen ist gleich. Eine Frage zu Wirkmechanismen von Medikamenten erfordert eine andere Expertise als eine Frage zur Unternehmensstruktur. Expertise Domains leiten Schema-Eigenschaften an den richtigen Spezialisten innerhalb des LLM weiter und aktivieren die relevanten Wissensmuster für jede Domain.

pharmaceutical
Wirkstoffnamen, Wirkmechanismen, Indikationen, Zulassungsstatus
business_classification
Branchencodes, Unternehmenstypen, Marktsegmente
geographic
Standorte, Regionen, länderspezifische Informationen
financial
Umsatz, Marktkapitalisierung, Finanzierungsrunden
temporal
Daten, Zeiträume, historische Ereignisse
regulatory
Genehmigungen, Lizenzen, Compliance-Status

Bei Verwendung der Multi-Expertise-Strategie erhält jeder Bereich seinen eigenen fokussierten LLM-Aufruf mit nur den relevanten Schema-Eigenschaften, was die Ausgabequalität deutlich verbessert.

Qualitätskontrollen

Validierung und Selbstkorrektur

LLMs können Fehler machen. Entity Enricher setzt mehrere Ebenen der Qualitätskontrolle ein, um Fehler automatisch zu erkennen und zu beheben:

  1. Typvalidierung – Stellt sicher, dass die Ausgabe den Schema-Typen entspricht (string, number, boolean usw.)
  2. Expertise-Validierung – Prüft, ob alle Expertisebereiche definiert sind und Eigenschaften enthalten
  3. Selbstkorrektur — Wenn die Validierung fehlschlägt, werden Fehler zur automatischen Korrektur an das LLM zurückgesendet (bis zu 5 Wiederholungsversuche)
  4. Erhaltungslogik — Ursprüngliche Werte für beibehaltene Felder werden nach der Anreicherung wiederhergestellt, um die Datenintegrität zu gewährleisten

Suchschlüssel: Identität während der Anreicherung verankern

Suchschlüssel verhindern, dass das LLM über die falsche Entität halluziniert. Sie erfüllen zwei Rollen:

  • Suchschlüssel (name, website) — Identifikatoren, die dem LLM helfen, die richtige Entität zu finden
  • Merge-Schlüssel (product_name in Arrays) — Deduplizierungsschlüssel zum Abgleichen von Array-Elementen beim Zusammenführen der Ergebnisse mehrerer Modelle

Der Anreicherungs-Prompt betont: „Sie reichern diese spezifische Entität an, die durch diese Suchschlüssel identifiziert wird.“

Suchschlüssel und semantische IDs sind zwei Seiten der Identität: Suchschlüssel helfen dem LLM, die richtige Entität während der Anreicherung zu finden; semantische IDs geben ihr eine dauerhafte Identität, auf die sich Ihre Systeme nach der Anreicherung verlassen.

Pre-flight-Klassifizierung

Bevor die Anreicherung beginnt, kann ein optionaler Schritt zur Pre-Flight-Klassifizierung prüfen, ob die Entität tatsächlich zum Schematyp passt. Dies verhindert Halluzinationen, wenn Entitäten nicht passen — zum Beispiel die Anreicherung von „Titan“ gegen ein „Planet“-Schema, obwohl Titan eigentlich ein Mond ist.

Kostenbewusstsein

LLM-Aufrufe verursachen Kosten. Entity Enricher erfasst die Token-Nutzung, die Kosten pro Anbieter, die Kosten pro Anreicherung und organisationsbezogene Ausgaben. Das ermöglicht Budgetüberwachung, Anbietervergleich (Kosten vs. Qualität) und Optimierungsentscheidungen wie den Einsatz günstigerer Modelle für einfache Felder – was besonders bei der Verarbeitung eines Archivs mit Tausenden von Dokumenten wichtig ist.

Zusammenfassung

KomponenteKonzeptionelle Rolle
SchemaDie Frage, die Sie stellen
LLM-AnbieterUnterschiedliche Wissensperspektiven
AnhängeIhre Archive als Wissensquelle (PDF, Bild, Audio, Office)
SuchschlüsselIdentitätsanker der Entität während der Anreicherung
Semantic IDsStabile Identität nach der Anreicherung – das Rückgrat Ihres Informationssystems
ExpertisebereicheSpezialisten-Routing
StrategienSo orchestrieren Sie LLM-Aufrufe
Batch-VerarbeitungParallele Enrichments im Archivmaßstab
MehrsprachigDieselbe Tatsache in jeder Sprache, in der Sie tätig sind
ValidierungQualitätssicherung
BeibehaltenSchutz der Datenintegrität

Nächste Schritte