Grundkonzepte - Entity Enricher Dokumentation

Grundkonzepte

Entity Enricher verwandelt zwei Arten von Wissen in strukturierte, validierte Daten: das, was Large Language Models bereits wissen, und das, was ungelesen in Ihren eigenen Archiven liegt – PDF-Dokumente, Bilder, Audioaufnahmen, Office-Dateien. Jedes extrahierte Objekt erhält eine stabile semantische Identität, sodass sich Anreicherungen zu einem kohärenten Informationssystem ansammeln statt zu einem Haufen einmaliger Ergebnisse.

Die Kernidee

Betrachten Sie LLMs als destilliertes menschliches Wissen — Milliarden von Dokumenten, Datenbanken und Webseiten, komprimiert in abfragbare neuronale Netze. Entity Enricher bietet die Schnittstelle, um dieses Wissen in einem strukturierten, zuverlässigen Format zu extrahieren, das zu Ihrem Datenmodell passt. Und da moderne Modelle auch PDFs lesen, Bilder sehen und Audio hören können, extrahiert dieselbe Schnittstelle Struktur aus Ihren eigenen Inhalten: den Verträgen, Berichten, Scans und Aufnahmen, die Ihr Unternehmen über Jahre hinweg angesammelt hat.

Ihre Daten & Archive

Teilweise Datensätze

Rohe Bezeichner

PDFs & Scans

Bilder & Audio

Schema + LLM

„Was möchte ich wissen?“

Ihr Informationssystem

Strukturierte Profile

Klassifizierungen

Mehrsprachige Felder

Stabile semantische IDs

Zwei Wissensquellen

Jede Anreicherung greift auf eine oder beide dieser Quellen zurück. Sie ergänzen einander: Das Modell liefert Weltwissen und logisches Denken; Ihre Dokumente liefern die Fakten, die nur innerhalb Ihrer Organisation existieren.

1. Das Trainingswissen des Modells

Öffentliche Fakten über Unternehmen, Medikamente, Orte, Produkte, Vorschriften — alles, was das Modell während des Trainings gelernt hat. Geben Sie ihm einen Identifikator (einen Namen, eine Website) und ein Schema, und es füllt den Rest aus: Branche, Gründungsjahr, Hauptsitz, Wirkmechanismen. Kein Dokument erforderlich.

2. Ihre unstrukturierten Archive

Das Wissen, das nie in eine Datenbank gelangt ist: Verträge, Rechnungen, Prüfberichte, gescannte Formulare, Produktfotos, aufgezeichnete Anrufe. Hängen Sie sie an eine Anreicherung an, und das Modell extrahiert die Felder Ihres Schemas direkt aus deren Inhalt – ohne manuelles OCR, Transkription oder Kopieren und Einfügen.

Siehe Dokumentanhänge für unterstützte Formate und Übermittlungsmodi.

Drei Säulen

1. Das Schema: Ihre Frage an die Wissensdatenbank

Ein Schema ist nicht nur eine Datenstruktur – es ist eine formalisierte Frage, die Sie an das gesammelte Wissen der Menschheit oder an ein bestimmtes Dokument richten. Wenn Sie ein Schema mit Eigenschaften wie companyName, industry und headquarters definieren, fragen Sie im Grunde: „Nennen Sie mir bei gegebener Unternehmenskennung den Namen, die Branche, in der es tätig ist, und den Sitz des Hauptsitzes.“

Schema-Konzept	Zweck
Eigenschaften	Die konkreten Fakten, die Sie extrahieren möchten
Typen	Das von Ihnen erwartete Format (String, Zahl, Objekt, Array)
Expertisebereiche	Welcher Spezialist antworten soll (pharmazeutisch, finanziell, geografisch)
Suchschlüssel	Bezeichner, die helfen, die Entität in der Wissensdatenbank zu finden
Semantic ID	Eine stabile, organisationsbezogene Identität, damit dasselbe reale Objekt über Anreicherungen und Ihre anderen Systeme hinweg erkannt wird
Beibehalten	Felder, die unverändert aus Ihrer Eingabe übernommen werden
Mehrsprachig	Felder, die in jeder Sprache bereitgestellt werden, in der Sie arbeiten – eine erstklassige Funktion, kein nachträglich angefügter Übersetzungsschritt

2. Das LLM: Abfragbares Wissen, multimodaler Reader

Large Language Models stellen eine neue Art von Wissensbasis dar. Anders als herkömmliche Datenbanken, die exakte Treffer auf gespeicherten Datensätzen liefern, verstehen LLMs den Kontext, ziehen Schlüsse aus unvollständigen Daten und verallgemeinern aus Mustern. Und sie sind nicht mehr auf Text beschränkt: Modelle mit Bildverarbeitung lesen Bilder und gescannte Seiten, PDF-fähige Modelle verarbeiten ganze Dokumente und Modelle mit Audiofähigkeit hören Aufnahmen an.

Entity Enricher behandelt mehrere LLMs als unterschiedliche Wissensperspektiven. Jeder Provider bringt seine eigenen Stärken mit – Claude glänzt bei nuanciertem Denken, GPT-4 verfügt über breites Wissen, Gemini bietet mehrsprachige Tiefe und lokale Ollama-Modelle halten Ihre Daten privat.

Wenn Sie dieselbe Anreicherung über mehrere Anbieter ausführen, können Sie Antworten auf ihre Konfidenz vergleichen, einen Konsens aus mehreren Experten aggregieren und Kosten gegen Qualität abwägen. Erfahren Sie mehr dazu unter Multi-Modell-Anreicherung.

3. Die Anreicherung: Strukturierte Wissensextraktion

Anreicherung ist der Prozess, bei dem die Entität anhand von Suchschlüsseln identifiziert wird, relevantes Wissen aus dem LLM und allen angehängten Dokumenten abgerufen wird, die Antwort gemäß Ihrem Schema strukturiert wird, validiert wird, dass die Ausgabe den erwarteten Typen entspricht, Ihre Originaldaten dort, wo angegeben, erhalten bleiben und schließlich die Identität aufgelöst wird — indem jedem Objekt seine stabile semantische ID zugewiesen wird.

Eingabe

{ "name": "Novartis", "website": "novartis.com" }

Schlüssel extrahieren → LLM abfragen → Validieren → Identität auflösen

Ausgabe

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Von Anreicherungen zu einem Informationssystem

Jede Anreicherung ist unabhängig. Fragen Sie zweimal, und dasselbe reale Objekt kann unterschiedlich beschrieben zurückkommen — „Acme Inc.“ an einem Tag, „Acme Incorporated“ am nächsten; eine Arzneimittelnebenwirkung als „Headache“, „Céphalée“ oder „Cephalalgia“, je nach Sprache oder Modell. Um wirklich auf angereicherten Daten aufzubauen, benötigen Sie eine stabile Kennung für dieselbe Entität.

Eine semantische ID ist ein organisationsspezifischer Bezeichner, den Entity Enricher einem Objekt anhand seiner Schlüsselfelder zuweist – abgeglichen nach Bedeutung, nicht nach exakter Schreibweise. Dieselbe Entität wird über Anreicherungen, Modelle, Sprachen und Zeit hinweg derselben ID zugeordnet. Sie wird automatisch nach dem Modelllauf vergeben – niemals vom LLM erfunden – und kann sich auf jedem Objekt befinden: der gesamten Entität, einem verschachtelten Objekt oder jedem Element einer Liste.

Anreicherungslauf #1

„Acme Inc.“

dieselbe semantische ID

cpt_abc123

Durchlauf #2 – später, anderes Modell oder andere Sprache

„Acme Incorporated“

Das verwandelt einen Strom von Anreicherungen in ein Informationssystem, das Sie ausbauen und abfragen können:

Verwenden	Was es ermöglicht
Verbindungsschlüssel	Ein stabiler Schlüssel, um angereicherte Datensätze mit Ihrem Data Warehouse, CRM oder Stammdatensystem abzugleichen
Deduplizierung	Fast-Duplikate, die über Batches, Modelle oder Jahre von Dokumenten hinweg entstehen, zu einer Identität zusammenführen
Abgleich	Geben Sie eine bekannte semantische ID erneut ein, damit neue Fakten der bereits verfolgten Entität zugeordnet werden, anstatt eine neue zu erzeugen
Wissensgraph	Objekte, auf die aus mehreren Records verwiesen wird, laufen in einem Knoten zusammen — Beziehungen werden abfragbar

Wie die Auflösung funktioniert (Exact-Match-Cache, Embeddings, Ähnlichkeitsschwellen), wird unter Semantic IDs erläutert.

Jahrzehnte an Archiven durchforsten

Die meisten Unternehmen sitzen auf einem Archiv, das nie strukturiert wurde: Netzlaufwerke voller Verträge und Berichte, gescanntes Papier, E-Mail-Anhänge, aufgezeichnete Meetings. Dieses Archiv ist eine Datenbank – es hat nur nie Zeilen und Spalten bekommen. Die Kombination aus Anhängen (Dokumente als Wissensquelle), Batch-Anreicherung (parallele Verarbeitung) und semantischen IDs (Deduplizierung über den gesamten Korpus) macht genau das daraus.

Archivdateien

An Anreicherung anhängen

Schema als Extraktionsfrage

Validierte strukturierte Datensätze

Semantische Identität & Dedup

Ihre Datenbank

Batch im großen Maßstab – Entitäten werden parallel angereichert, mit Live-Fortschritt pro Entität, vorab kalkulierten Kostenschätzungen und selektivem erneuten Versuch für die wenigen, die fehlschlagen
Abgesicherte Extraktion – vorgelagerte Klassifizierung und Schema-Validierung verhindern, dass ein falsch abgelegtes Dokument Ihre Datensätze mit selbstbewusstem Unsinn verunreinigt
Konvergente Identität – derselbe Lieferant, der in einem Vertrag von 2009 und einer Rechnung von 2024 auftaucht, wird auf dieselbe semantische ID aufgelöst, sodass das Archiv zu sauberen Stammdaten zusammenschmilzt
Heraus über die API — Ergebnisse werden als validiertes JSON exportiert oder fließen direkt über die REST-API und Connectoren (n8n, Make, MCP) in Ihre Systeme

Siehe Batch-Anreicherung für den detaillierten Workflow.

Über Text hinaus: Multimodale Quellen

Strukturiertes Wissen steckt nicht nur in Text. Entity Enricher akzeptiert die Formate, die Ihr Archiv tatsächlich enthält, und leitet jedes an Modelle weiter, die es lesen können.

PDF-Dokumente

Vollständige Dokumente mit Layout, Tabellen und Abbildungen — nativ von PDF-fähigen Modellen gelesen

Bilder

Fotos, Scans, Diagramme, Produktaufnahmen – von Vision-Modellen interpretiert, ohne separaten OCR-Schritt

Audio

Aufgezeichnete Anrufe, Meetings und Sprachnotizen – direkt von audiofähigen Modellen gehört

Office & Text

Word, Excel, PowerPoint, HTML, CSV, Markdown – Text serverseitig extrahiert und eingebettet

Zwei Übermittlungsmodi machen das möglich. Im Binärmodus gelangen die Originalbytes an das Modell, sodass bei der Umwandlung nichts verloren geht – das Layout einer Tabelle, das Detail eines Fotos, die Worte eines Sprechers. Im Inline-Text-Modus wird der Text einmal beim Upload extrahiert und in jeden Prompt eingebettet, was mit jedem Modell unabhängig von seinen Fähigkeiten funktioniert.

Fähigkeitsbewusstes Routing bedeutet, dass eine Datei nur Modelle erreicht, die sie tatsächlich verarbeiten können — Sie werden vor dem Start einer Anreicherung gewarnt, nicht erst nach deren Fehlschlag. Formate und Modi werden unter Dokumentanhänge beschrieben.

Expertisebereiche: Den richtigen Spezialisten konsultieren

Nicht alles Wissen ist gleich. Eine Frage zu Wirkmechanismen von Medikamenten erfordert eine andere Expertise als eine Frage zur Unternehmensstruktur. Expertise Domains leiten Schema-Eigenschaften an den richtigen Spezialisten innerhalb des LLM weiter und aktivieren die relevanten Wissensmuster für jede Domain.

pharmaceutical

Wirkstoffnamen, Wirkmechanismen, Indikationen, Zulassungsstatus

business_classification

Branchencodes, Unternehmenstypen, Marktsegmente

geographic

Standorte, Regionen, länderspezifische Informationen

financial

Umsatz, Marktkapitalisierung, Finanzierungsrunden

temporal

Daten, Zeiträume, historische Ereignisse

regulatory

Genehmigungen, Lizenzen, Compliance-Status

Bei Verwendung der Multi-Expertise-Strategie erhält jeder Bereich seinen eigenen fokussierten LLM-Aufruf mit nur den relevanten Schema-Eigenschaften, was die Ausgabequalität deutlich verbessert.

Qualitätskontrollen

Validierung und Selbstkorrektur

LLMs können Fehler machen. Entity Enricher setzt mehrere Ebenen der Qualitätskontrolle ein, um Fehler automatisch zu erkennen und zu beheben:

Typvalidierung – Stellt sicher, dass die Ausgabe den Schema-Typen entspricht (string, number, boolean usw.)
Expertise-Validierung – Prüft, ob alle Expertisebereiche definiert sind und Eigenschaften enthalten
Selbstkorrektur — Wenn die Validierung fehlschlägt, werden Fehler zur automatischen Korrektur an das LLM zurückgesendet (bis zu 5 Wiederholungsversuche)
Erhaltungslogik — Ursprüngliche Werte für beibehaltene Felder werden nach der Anreicherung wiederhergestellt, um die Datenintegrität zu gewährleisten

Suchschlüssel: Identität während der Anreicherung verankern

Suchschlüssel verhindern, dass das LLM über die falsche Entität halluziniert. Sie erfüllen zwei Rollen:

Suchschlüssel (name, website) — Identifikatoren, die dem LLM helfen, die richtige Entität zu finden
Merge-Schlüssel (product_name in Arrays) — Deduplizierungsschlüssel zum Abgleichen von Array-Elementen beim Zusammenführen der Ergebnisse mehrerer Modelle

Der Anreicherungs-Prompt betont: „Sie reichern diese spezifische Entität an, die durch diese Suchschlüssel identifiziert wird.“

Suchschlüssel und semantische IDs sind zwei Seiten der Identität: Suchschlüssel helfen dem LLM, die richtige Entität während der Anreicherung zu finden; semantische IDs geben ihr eine dauerhafte Identität, auf die sich Ihre Systeme nach der Anreicherung verlassen.

Pre-flight-Klassifizierung

Bevor die Anreicherung beginnt, kann ein optionaler Schritt zur Pre-Flight-Klassifizierung prüfen, ob die Entität tatsächlich zum Schematyp passt. Dies verhindert Halluzinationen, wenn Entitäten nicht passen — zum Beispiel die Anreicherung von „Titan“ gegen ein „Planet“-Schema, obwohl Titan eigentlich ein Mond ist.

Kostenbewusstsein

LLM-Aufrufe verursachen Kosten. Entity Enricher erfasst die Token-Nutzung, die Kosten pro Anbieter, die Kosten pro Anreicherung und organisationsbezogene Ausgaben. Das ermöglicht Budgetüberwachung, Anbietervergleich (Kosten vs. Qualität) und Optimierungsentscheidungen wie den Einsatz günstigerer Modelle für einfache Felder – was besonders bei der Verarbeitung eines Archivs mit Tausenden von Dokumenten wichtig ist.

Zusammenfassung

Komponente	Konzeptionelle Rolle
Schema	Die Frage, die Sie stellen
LLM-Anbieter	Unterschiedliche Wissensperspektiven
Anhänge	Ihre Archive als Wissensquelle (PDF, Bild, Audio, Office)
Suchschlüssel	Identitätsanker der Entität während der Anreicherung
Semantic IDs	Stabile Identität nach der Anreicherung – das Rückgrat Ihres Informationssystems
Expertisebereiche	Spezialisten-Routing
Strategien	So orchestrieren Sie LLM-Aufrufe
Batch-Verarbeitung	Parallele Enrichments im Archivmaßstab
Mehrsprachig	Dieselbe Tatsache in jeder Sprache, in der Sie tätig sind
Validierung	Qualitätssicherung
Beibehalten	Schutz der Datenintegrität

Nächste Schritte

Anreicherungsablauf

Schritt-für-Schritt-Anleitung der Anreicherungs-Pipeline

Semantic IDs

Stabile Entitätsidentität für Deduplizierung und Interoperabilität

Dokumentanhänge

PDFs, Bilder, Audio und Office-Dateien als Anreicherungsquellen

Batch-Anreicherung

Parallele Verarbeitung für Listen und Archive

Anreicherungsstrategien

Single-Pass- und Multi-Expertise-Ansätze vergleichen

Multi-Modell-Fusion

Konflikterkennung und -auflösung über Modelle hinweg