Entity Enricher verwandelt zwei Arten von Wissen in strukturierte, validierte Daten: das, was Large Language Models bereits wissen, und das, was ungelesen in Ihren eigenen Archiven liegt – PDF-Dokumente, Bilder, Audioaufnahmen, Office-Dateien. Jedes extrahierte Objekt erhält eine stabile semantische Identität, sodass sich Anreicherungen zu einem kohärenten Informationssystem ansammeln statt zu einem Haufen einmaliger Ergebnisse.
Betrachten Sie LLMs als destilliertes menschliches Wissen — Milliarden von Dokumenten, Datenbanken und Webseiten, komprimiert in abfragbare neuronale Netze. Entity Enricher bietet die Schnittstelle, um dieses Wissen in einem strukturierten, zuverlässigen Format zu extrahieren, das zu Ihrem Datenmodell passt. Und da moderne Modelle auch PDFs lesen, Bilder sehen und Audio hören können, extrahiert dieselbe Schnittstelle Struktur aus Ihren eigenen Inhalten: den Verträgen, Berichten, Scans und Aufnahmen, die Ihr Unternehmen über Jahre hinweg angesammelt hat.
Jede Anreicherung greift auf eine oder beide dieser Quellen zurück. Sie ergänzen einander: Das Modell liefert Weltwissen und logisches Denken; Ihre Dokumente liefern die Fakten, die nur innerhalb Ihrer Organisation existieren.
Öffentliche Fakten über Unternehmen, Medikamente, Orte, Produkte, Vorschriften — alles, was das Modell während des Trainings gelernt hat. Geben Sie ihm einen Identifikator (einen Namen, eine Website) und ein Schema, und es füllt den Rest aus: Branche, Gründungsjahr, Hauptsitz, Wirkmechanismen. Kein Dokument erforderlich.
Das Wissen, das nie in eine Datenbank gelangt ist: Verträge, Rechnungen, Prüfberichte, gescannte Formulare, Produktfotos, aufgezeichnete Anrufe. Hängen Sie sie an eine Anreicherung an, und das Modell extrahiert die Felder Ihres Schemas direkt aus deren Inhalt – ohne manuelles OCR, Transkription oder Kopieren und Einfügen.
Siehe Dokumentanhänge für unterstützte Formate und Übermittlungsmodi.
Ein Schema ist nicht nur eine Datenstruktur – es ist eine formalisierte Frage, die Sie an das gesammelte Wissen der Menschheit oder an ein bestimmtes Dokument richten. Wenn Sie ein Schema mit Eigenschaften wie companyName, industry und headquarters definieren, fragen Sie im Grunde: „Nennen Sie mir bei gegebener Unternehmenskennung den Namen, die Branche, in der es tätig ist, und den Sitz des Hauptsitzes.“
| Schema-Konzept | Zweck |
|---|---|
| Eigenschaften | Die konkreten Fakten, die Sie extrahieren möchten |
| Typen | Das von Ihnen erwartete Format (String, Zahl, Objekt, Array) |
| Expertisebereiche | Welcher Spezialist antworten soll (pharmazeutisch, finanziell, geografisch) |
| Suchschlüssel | Bezeichner, die helfen, die Entität in der Wissensdatenbank zu finden |
| Semantic ID | Eine stabile, organisationsbezogene Identität, damit dasselbe reale Objekt über Anreicherungen und Ihre anderen Systeme hinweg erkannt wird |
| Beibehalten | Felder, die unverändert aus Ihrer Eingabe übernommen werden |
| Mehrsprachig | Felder, die in jeder Sprache bereitgestellt werden, in der Sie arbeiten – eine erstklassige Funktion, kein nachträglich angefügter Übersetzungsschritt |
Large Language Models stellen eine neue Art von Wissensbasis dar. Anders als herkömmliche Datenbanken, die exakte Treffer auf gespeicherten Datensätzen liefern, verstehen LLMs den Kontext, ziehen Schlüsse aus unvollständigen Daten und verallgemeinern aus Mustern. Und sie sind nicht mehr auf Text beschränkt: Modelle mit Bildverarbeitung lesen Bilder und gescannte Seiten, PDF-fähige Modelle verarbeiten ganze Dokumente und Modelle mit Audiofähigkeit hören Aufnahmen an.
Entity Enricher behandelt mehrere LLMs als unterschiedliche Wissensperspektiven. Jeder Provider bringt seine eigenen Stärken mit – Claude glänzt bei nuanciertem Denken, GPT-4 verfügt über breites Wissen, Gemini bietet mehrsprachige Tiefe und lokale Ollama-Modelle halten Ihre Daten privat.
Wenn Sie dieselbe Anreicherung über mehrere Anbieter ausführen, können Sie Antworten auf ihre Konfidenz vergleichen, einen Konsens aus mehreren Experten aggregieren und Kosten gegen Qualität abwägen. Erfahren Sie mehr dazu unter Multi-Modell-Anreicherung.
Anreicherung ist der Prozess, bei dem die Entität anhand von Suchschlüsseln identifiziert wird, relevantes Wissen aus dem LLM und allen angehängten Dokumenten abgerufen wird, die Antwort gemäß Ihrem Schema strukturiert wird, validiert wird, dass die Ausgabe den erwarteten Typen entspricht, Ihre Originaldaten dort, wo angegeben, erhalten bleiben und schließlich die Identität aufgelöst wird — indem jedem Objekt seine stabile semantische ID zugewiesen wird.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }Jede Anreicherung ist unabhängig. Fragen Sie zweimal, und dasselbe reale Objekt kann unterschiedlich beschrieben zurückkommen — „Acme Inc.“ an einem Tag, „Acme Incorporated“ am nächsten; eine Arzneimittelnebenwirkung als „Headache“, „Céphalée“ oder „Cephalalgia“, je nach Sprache oder Modell. Um wirklich auf angereicherten Daten aufzubauen, benötigen Sie eine stabile Kennung für dieselbe Entität.
Eine semantische ID ist ein organisationsspezifischer Bezeichner, den Entity Enricher einem Objekt anhand seiner Schlüsselfelder zuweist – abgeglichen nach Bedeutung, nicht nach exakter Schreibweise. Dieselbe Entität wird über Anreicherungen, Modelle, Sprachen und Zeit hinweg derselben ID zugeordnet. Sie wird automatisch nach dem Modelllauf vergeben – niemals vom LLM erfunden – und kann sich auf jedem Objekt befinden: der gesamten Entität, einem verschachtelten Objekt oder jedem Element einer Liste.
cpt_abc123Das verwandelt einen Strom von Anreicherungen in ein Informationssystem, das Sie ausbauen und abfragen können:
| Verwenden | Was es ermöglicht |
|---|---|
| Verbindungsschlüssel | Ein stabiler Schlüssel, um angereicherte Datensätze mit Ihrem Data Warehouse, CRM oder Stammdatensystem abzugleichen |
| Deduplizierung | Fast-Duplikate, die über Batches, Modelle oder Jahre von Dokumenten hinweg entstehen, zu einer Identität zusammenführen |
| Abgleich | Geben Sie eine bekannte semantische ID erneut ein, damit neue Fakten der bereits verfolgten Entität zugeordnet werden, anstatt eine neue zu erzeugen |
| Wissensgraph | Objekte, auf die aus mehreren Records verwiesen wird, laufen in einem Knoten zusammen — Beziehungen werden abfragbar |
Wie die Auflösung funktioniert (Exact-Match-Cache, Embeddings, Ähnlichkeitsschwellen), wird unter Semantic IDs erläutert.
Die meisten Unternehmen sitzen auf einem Archiv, das nie strukturiert wurde: Netzlaufwerke voller Verträge und Berichte, gescanntes Papier, E-Mail-Anhänge, aufgezeichnete Meetings. Dieses Archiv ist eine Datenbank – es hat nur nie Zeilen und Spalten bekommen. Die Kombination aus Anhängen (Dokumente als Wissensquelle), Batch-Anreicherung (parallele Verarbeitung) und semantischen IDs (Deduplizierung über den gesamten Korpus) macht genau das daraus.
Siehe Batch-Anreicherung für den detaillierten Workflow.
Strukturiertes Wissen steckt nicht nur in Text. Entity Enricher akzeptiert die Formate, die Ihr Archiv tatsächlich enthält, und leitet jedes an Modelle weiter, die es lesen können.
Zwei Übermittlungsmodi machen das möglich. Im Binärmodus gelangen die Originalbytes an das Modell, sodass bei der Umwandlung nichts verloren geht – das Layout einer Tabelle, das Detail eines Fotos, die Worte eines Sprechers. Im Inline-Text-Modus wird der Text einmal beim Upload extrahiert und in jeden Prompt eingebettet, was mit jedem Modell unabhängig von seinen Fähigkeiten funktioniert.
Fähigkeitsbewusstes Routing bedeutet, dass eine Datei nur Modelle erreicht, die sie tatsächlich verarbeiten können — Sie werden vor dem Start einer Anreicherung gewarnt, nicht erst nach deren Fehlschlag. Formate und Modi werden unter Dokumentanhänge beschrieben.
Nicht alles Wissen ist gleich. Eine Frage zu Wirkmechanismen von Medikamenten erfordert eine andere Expertise als eine Frage zur Unternehmensstruktur. Expertise Domains leiten Schema-Eigenschaften an den richtigen Spezialisten innerhalb des LLM weiter und aktivieren die relevanten Wissensmuster für jede Domain.
Bei Verwendung der Multi-Expertise-Strategie erhält jeder Bereich seinen eigenen fokussierten LLM-Aufruf mit nur den relevanten Schema-Eigenschaften, was die Ausgabequalität deutlich verbessert.
LLMs können Fehler machen. Entity Enricher setzt mehrere Ebenen der Qualitätskontrolle ein, um Fehler automatisch zu erkennen und zu beheben:
Suchschlüssel verhindern, dass das LLM über die falsche Entität halluziniert. Sie erfüllen zwei Rollen:
Der Anreicherungs-Prompt betont: „Sie reichern diese spezifische Entität an, die durch diese Suchschlüssel identifiziert wird.“
Suchschlüssel und semantische IDs sind zwei Seiten der Identität: Suchschlüssel helfen dem LLM, die richtige Entität während der Anreicherung zu finden; semantische IDs geben ihr eine dauerhafte Identität, auf die sich Ihre Systeme nach der Anreicherung verlassen.
Bevor die Anreicherung beginnt, kann ein optionaler Schritt zur Pre-Flight-Klassifizierung prüfen, ob die Entität tatsächlich zum Schematyp passt. Dies verhindert Halluzinationen, wenn Entitäten nicht passen — zum Beispiel die Anreicherung von „Titan“ gegen ein „Planet“-Schema, obwohl Titan eigentlich ein Mond ist.
LLM-Aufrufe verursachen Kosten. Entity Enricher erfasst die Token-Nutzung, die Kosten pro Anbieter, die Kosten pro Anreicherung und organisationsbezogene Ausgaben. Das ermöglicht Budgetüberwachung, Anbietervergleich (Kosten vs. Qualität) und Optimierungsentscheidungen wie den Einsatz günstigerer Modelle für einfache Felder – was besonders bei der Verarbeitung eines Archivs mit Tausenden von Dokumenten wichtig ist.
| Komponente | Konzeptionelle Rolle |
|---|---|
| Schema | Die Frage, die Sie stellen |
| LLM-Anbieter | Unterschiedliche Wissensperspektiven |
| Anhänge | Ihre Archive als Wissensquelle (PDF, Bild, Audio, Office) |
| Suchschlüssel | Identitätsanker der Entität während der Anreicherung |
| Semantic IDs | Stabile Identität nach der Anreicherung – das Rückgrat Ihres Informationssystems |
| Expertisebereiche | Spezialisten-Routing |
| Strategien | So orchestrieren Sie LLM-Aufrufe |
| Batch-Verarbeitung | Parallele Enrichments im Archivmaßstab |
| Mehrsprachig | Dieselbe Tatsache in jeder Sprache, in der Sie tätig sind |
| Validierung | Qualitätssicherung |
| Beibehalten | Schutz der Datenintegrität |