Dokumentanhänge - Entity Enricher Dokumentation

Dokumentanhänge

Hängen Sie PDFs, Bilder, Audioaufnahmen, Office-Dokumente, Tabellen, Folien und Textdateien an jede Anfrage zur Anreicherung, Schema-Generierung, Beispielgenerierung, KI-Schema-Bearbeitung oder an Playground-Anfragen an. Die Dateien erreichen das Modell entweder als native Bytes (bei Modellen mit PDF-, Vision- und Audio-Fähigkeit) oder als serverseitig extrahierter Text, der in den Prompt eingebettet wird — kein manuelles OCR, keine Transkription, Konvertierung oder Chunking erforderlich.

Wo Sie Dokumente anhängen können

Einzelanreicherung

Anhänge pro Datensatz neben der JSON-Eingabe

Batch-Enrichment

Geteilte Attachments, die auf jede Entity im Batch angewendet werden

Schemagenerierung (geführt)

Ein Schema aus einem Beispieldokument generieren

Beispiel-JSON-Generierung

Eine Beispiel-Entität aus einer Quelldatei extrahieren

KI-Schemabearbeitung

Ein Schema mit natürlicher Sprache + einem Referenzdokument verfeinern

Playground

Frei formulierte benutzerdefinierte Prompts mit Attachments

Zwei Bereitstellungsmodi

Jeder unterstützte MIME-Typ hat einen von Administratoren konfigurierten Zustellungsmodus. Der Modus bestimmt, wie die Datei zum Modell gelangt.

binaryNative Bytes

Die ursprünglichen Bytes werden dem Modell als BinaryContent übergeben. Das Modell liest die Datei direkt – ohne serverseitige Vorverarbeitung.

Erfordert ein Modell mit dem passenden Capability-Flag (supports_pdf_input für PDFs,supports_vision für Bilder,supports_audio_input für Audio). Die Modellauswahl wird automatisch gefiltert, sodass nur kompatible Modelle angezeigt werden.

inline_textExtrahierter Text

Ein serverseitiger Extraktor läuft einmalig beim Hochladen und speichert den resultierenden Text im Cache. Bei jedem weiteren LLM-Aufruf wird der zwischengespeicherte Text direkt in den Benutzer-Prompt eingefügt.

Keine Modellfähigkeit erforderlich — funktioniert mit jedem Modell. Klartext und Markdown umgehen den Extraktor und dekodieren die Rohbytes direkt.

Unterstützte Formate

19 Formate sind standardmäßig aktiviert. Systemadministratoren können jedes Format zwischen dem Modus binary undinline_text umschalten, seine Bezeichnung ändern oder es unter Model Management → Document policies vollständig deaktivieren.

Format	Erweiterungen	Standardmodus	Fähigkeit / Extraktor
PDF-Dokument	.pdf	binary	`supports_pdf_input`
PNG-Bild	.png	binary	`supports_vision`
JPEG-Bild	.jpg, .jpeg	binary	`supports_vision`
MP3-Audio	.mp3	binary	`supports_audio_input`
WAV-Audio	.wav	binary	`supports_audio_input`
M4A-Audio	.m4a	binary	`supports_audio_input`
OGG-Audio	.ogg, .oga	binary	`supports_audio_input`
FLAC-Audio	.flac	binary	`supports_audio_input`
Klartext	.txt	inline_text	rohe Dekodierung
Markdown	.md, .markdown	inline_text	rohe Dekodierung
Word (älteres .doc)	.doc	binary	docx2txt
Word (.docx)	.docx	binary	python-docx
OpenDocument-Text	.odt	binary	odfpy
Rich Text Format	.rtf	binary	striprtf
EPUB-E-Book	.epub	binary	ebooklib
HTML	.html, .htm	binary	beautifulsoup
CSV	.csv	binary	csv (stdlib)
Tabelle (.xlsx)	.xlsx	binary	openpyxl
Präsentation (.pptx)	.pptx	binary	python-pptx

Limits

10 MB

Pro Datei

Uploads oberhalb dieser Grenze ablehnen

50 MB

Pro Anfrage

Summe aller Dateien in einem einzelnen Upload

Kein Limit

Anzahl der Dateien

Nur begrenzt durch das Gesamtlimit von 50 MB pro Anfrage

Limit für extrahierten Text: 500 KB pro Anhang – längere Quelldokumente werden beim serverseitigen Extrahieren gekürzt. Extractor-Timeout: 10 s Echtzeit pro Anhang (Uploads, die das Timeout überschreiten, sind dennoch erfolgreich; die Datei wird gespeichert, aber ihr extrahierter Text ist leer).

Lebenszyklus

Hochladen

Ziehen Sie Dateien per Drag-and-Drop oder wählen Sie sie im Anhang-Panel jeder unterstützten Seite aus. Der vom Browser gelieferte Content-Type wird nicht als vertrauenswürdig eingestuft — der Server prüft die Magic Bytes und lehnt alles außerhalb der Positivliste ab. Jede Datei wird gehasht (SHA-256) und auf verschlüsseltem Blockspeicher abgelegt.

Deduplizierung nach Inhalt

Identische Bytes, die zweimal innerhalb derselben Organisation hochgeladen werden, werden zu einer einzigen gespeicherten Datei dedupliziert. Zwei verschiedene Organisationen, die dieselbe Datei hochladen, erzeugen zwei unabhängige Zeilen – kein mandantenübergreifendes Durchsickern. Der Dedup-Schlüssel ist (organization_id, sha256).

Einmal extrahieren (inline_text-Modus)

Bei inline_text-Formaten wird der Extraktor beim Hochladen ausgeführt und der resultierende Text in der Attachment-Zeile zwischengespeichert. Nachfolgende LLM-Aufrufe verwenden den zwischengespeicherten Text erneut – keine Kosten für eine erneute Extraktion. binary-Formate überspringen diesen Schritt.

In jedem Job per ID referenzieren

Nach dem Hochladen werden Anhänge in nachfolgenden Anreicherungs-, Schema-Generierungs- oder Playground-Anfragen per ID übergeben. Jeder Anhang wird dem Nutzerinhalt des Modells entweder als native Bytes (Binärmodus) oder als eingebetteter Text (inline_text-Modus) hinzugefügt, wobei der ursprüngliche Dateiname erhalten bleibt.

Im Datensatz gespeichert

Wenn ein Anreicherungs-Record gespeichert wird, werden die Anhang-IDs damit verknüpft. Die Detailseite des Records listet alle Anhänge mit einer Download-Schaltfläche auf. Records können erneut zusammengeführt oder wiederholt werden, ohne die Anhänge erneut hochzuladen.

Nach Abschluss löschen (optional)

Wenn Sie eine Datei nicht mehr benötigen, löschen Sie sie mit DELETE /api/attachments/{id} – ein praktischer Aufräumschritt nach der Anreicherung. Das Löschen ist organisationsbezogen und gibt { success, id, filename } zurück.

Anhänge können nicht nur über die Web-Oberfläche, sondern auch programmatisch hochgeladen und gelöscht werden: Der n8n-Connector lädt über natives Multipart hoch, die Make.com- und MCP-Connectoren über die base64-JSON-Route, und jeder Client kann die REST-API direkt nutzen (DELETE /api/attachments/{id} zur Bereinigung).

Automatische Modellfilterung

Wenn Sie eine Binärdatei mit einer Fähigkeitsanforderung anhängen (PDF, Bild oder Audio), wird die Modellauswahl so gefiltert, dass nur Modelle angezeigt werden, die diese Fähigkeit deklarieren. Wenn Sie mehrere Dateien mit unterschiedlichen Anforderungen anhängen, erscheinen nur Modelle, die alle Anforderungen erfüllen.

Angehängte Dateien	Infrage kommende Modelle
1 PDF	`supports_pdf_input`
1 PNG	`supports_vision`
1 MP3	`supports_audio_input`
1 PDF + 1 PNG	`supports_pdf_input` UND `supports_vision`
1 DOCX (Binärmodus, keine Funktion)	Alle Modelle — native Byte-Unterstützung wird angenommen, wenn kein Fähigkeits-Flag gesetzt ist
1 TXT oder 1 MD (inline_text-Modus)	Alle Modelle — Text wird direkt in den Prompt eingefügt

Preise & Token-Nutzung

Anhänge werden als vom Modellanbieter gemeldete Eingabe-Token abgerechnet – Entity Enricher berechnet keine separate Gebühr pro Dokument. Die Kosten hängen vom Dateityp und dem ausgewählten Modell ab.

PDFs, Bilder & Audio (Binärmodus)

Verbrauchen modellspezifische Eingabe-Tokens. Anthropic berechnet rund 1700 Tokens pro PDF-Seite; OpenAI berechnet Vision-Eingaben nach Anzahl der Tiles; Modelle mit Audio-Fähigkeit messen Audio-Eingaben proportional zu ihrer Dauer. Prüfen Sie die Preisübersicht Ihres Modells unter Models & Pricing.

Office-Dokumente & Tabellen (extrahierter Text)

Der extrahierte Text verbraucht Eingabe-Tokens zum Standard-Texttarif. Große Dokumente sind auf 500 KB extrahierten Text begrenzt – längere Inhalte werden abgeschnitten.

Sicherheit & Mandantenfähigkeit

MIME-Allow-Liste mit Magic-Byte-Sniffing

Der vom Browser gemeldete Content-Type wird ignoriert. Der Server prüft die Datei-Header und lehnt alles ab, was außerhalb der konfigurierten Zulassungsliste liegt.

Organisationsbezogener Speicher

Jede Datei wird unter der Organisation gespeichert, der sie gehört. Der Download-Endpunkt erzwingt die Zugehörigkeit zur Organisation – es gibt keinen Weg über die API, um an die Dateien eines anderen Mandanten zu gelangen.

Extraktoren in der Sandbox

Jeder Extractor läuft mit einem 10-Sekunden-Zeitlimit innerhalb einer try/except-Grenze. Eine fehlerhafte Datei kann den API-Prozess weder blockieren noch zum Absturz bringen.

Im Ruhezustand verschlüsselt

Anhang-Bytes werden auf verschlüsseltem Blockspeicher gespeichert, der mit eingeschränkten Berechtigungen in den Anwendungscontainer eingebunden wird.

Vom Admin gesteuerte Richtlinien pro MIME-Typ

Systemadministratoren können jedes Format global deaktivieren, ein Format von binary auf inline_text (oder umgekehrt) ändern oder umbenennen. Änderungen werden beim nächsten Upload dieses MIME-Typs wirksam.

Anreicherungsablauf

Wie Anhänge in die Pipeline passen

Schemagenerierung