Hängen Sie PDFs, Bilder, Audioaufnahmen, Office-Dokumente, Tabellen, Folien und Textdateien an jede Anfrage zur Anreicherung, Schema-Generierung, Beispielgenerierung, KI-Schema-Bearbeitung oder an Playground-Anfragen an. Die Dateien erreichen das Modell entweder als native Bytes (bei Modellen mit PDF-, Vision- und Audio-Fähigkeit) oder als serverseitig extrahierter Text, der in den Prompt eingebettet wird — kein manuelles OCR, keine Transkription, Konvertierung oder Chunking erforderlich.
Jeder unterstützte MIME-Typ hat einen von Administratoren konfigurierten Zustellungsmodus. Der Modus bestimmt, wie die Datei zum Modell gelangt.
Die ursprünglichen Bytes werden dem Modell als BinaryContent übergeben. Das Modell liest die Datei direkt – ohne serverseitige Vorverarbeitung.
Erfordert ein Modell mit dem passenden Capability-Flag (supports_pdf_input für PDFs,supports_vision für Bilder,supports_audio_input für Audio). Die Modellauswahl wird automatisch gefiltert, sodass nur kompatible Modelle angezeigt werden.
Ein serverseitiger Extraktor läuft einmalig beim Hochladen und speichert den resultierenden Text im Cache. Bei jedem weiteren LLM-Aufruf wird der zwischengespeicherte Text direkt in den Benutzer-Prompt eingefügt.
Keine Modellfähigkeit erforderlich — funktioniert mit jedem Modell. Klartext und Markdown umgehen den Extraktor und dekodieren die Rohbytes direkt.
19 Formate sind standardmäßig aktiviert. Systemadministratoren können jedes Format zwischen dem Modus binary undinline_text umschalten, seine Bezeichnung ändern oder es unter Model Management → Document policies vollständig deaktivieren.
| Format | Erweiterungen | Standardmodus | Fähigkeit / Extraktor |
|---|---|---|---|
| PDF-Dokument | binary | supports_pdf_input | |
| PNG-Bild | .png | binary | supports_vision |
| JPEG-Bild | .jpg, .jpeg | binary | supports_vision |
| MP3-Audio | .mp3 | binary | supports_audio_input |
| WAV-Audio | .wav | binary | supports_audio_input |
| M4A-Audio | .m4a | binary | supports_audio_input |
| OGG-Audio | .ogg, .oga | binary | supports_audio_input |
| FLAC-Audio | .flac | binary | supports_audio_input |
| Klartext | .txt | inline_text | rohe Dekodierung |
| Markdown | .md, .markdown | inline_text | rohe Dekodierung |
| Word (älteres .doc) | .doc | binary | docx2txt |
| Word (.docx) | .docx | binary | python-docx |
| OpenDocument-Text | .odt | binary | odfpy |
| Rich Text Format | .rtf | binary | striprtf |
| EPUB-E-Book | .epub | binary | ebooklib |
| HTML | .html, .htm | binary | beautifulsoup |
| CSV | .csv | binary | csv (stdlib) |
| Tabelle (.xlsx) | .xlsx | binary | openpyxl |
| Präsentation (.pptx) | .pptx | binary | python-pptx |
(organization_id, sha256).inline_text-Formaten wird der Extraktor beim Hochladen ausgeführt und der resultierende Text in der Attachment-Zeile zwischengespeichert. Nachfolgende LLM-Aufrufe verwenden den zwischengespeicherten Text erneut – keine Kosten für eine erneute Extraktion. binary-Formate überspringen diesen Schritt.DELETE /api/attachments/{id} – ein praktischer Aufräumschritt nach der Anreicherung. Das Löschen ist organisationsbezogen und gibt { success, id, filename } zurück.Anhänge können nicht nur über die Web-Oberfläche, sondern auch programmatisch hochgeladen und gelöscht werden: Der n8n-Connector lädt über natives Multipart hoch, die Make.com- und MCP-Connectoren über die base64-JSON-Route, und jeder Client kann die REST-API direkt nutzen (DELETE /api/attachments/{id} zur Bereinigung).
Wenn Sie eine Binärdatei mit einer Fähigkeitsanforderung anhängen (PDF, Bild oder Audio), wird die Modellauswahl so gefiltert, dass nur Modelle angezeigt werden, die diese Fähigkeit deklarieren. Wenn Sie mehrere Dateien mit unterschiedlichen Anforderungen anhängen, erscheinen nur Modelle, die alle Anforderungen erfüllen.
| Angehängte Dateien | Infrage kommende Modelle |
|---|---|
| 1 PDF | supports_pdf_input |
| 1 PNG | supports_vision |
| 1 MP3 | supports_audio_input |
| 1 PDF + 1 PNG | supports_pdf_input UND supports_vision |
| 1 DOCX (Binärmodus, keine Funktion) | Alle Modelle — native Byte-Unterstützung wird angenommen, wenn kein Fähigkeits-Flag gesetzt ist |
| 1 TXT oder 1 MD (inline_text-Modus) | Alle Modelle — Text wird direkt in den Prompt eingefügt |
Anhänge werden als vom Modellanbieter gemeldete Eingabe-Token abgerechnet – Entity Enricher berechnet keine separate Gebühr pro Dokument. Die Kosten hängen vom Dateityp und dem ausgewählten Modell ab.
Verbrauchen modellspezifische Eingabe-Tokens. Anthropic berechnet rund 1700 Tokens pro PDF-Seite; OpenAI berechnet Vision-Eingaben nach Anzahl der Tiles; Modelle mit Audio-Fähigkeit messen Audio-Eingaben proportional zu ihrer Dauer. Prüfen Sie die Preisübersicht Ihres Modells unter Models & Pricing.
Der extrahierte Text verbraucht Eingabe-Tokens zum Standard-Texttarif. Große Dokumente sind auf 500 KB extrahierten Text begrenzt – längere Inhalte werden abgeschnitten.