Documentbijlagen - Entity Enricher-documentatie

Documentbijlagen

Voeg PDF's, afbeeldingen, audio-opnamen, Office-documenten, spreadsheets, slides en tekstbestanden toe aan elk verzoek voor verrijking, schemageneratie, samplegeneratie, AI-schemabewerking of playground. Bestanden bereiken het model ofwel als native bytes (voor modellen die PDF, vision en audio ondersteunen) ofwel als server-geëxtraheerde tekst die in de prompt wordt opgenomen — geen handmatige OCR, transcriptie, conversie of chunking vereist.

Waar je documenten kunt toevoegen

Enkele enrichment

Bijlagen per record naast JSON-invoer

Batchverrijking

Gedeelde bijlagen die op elke entiteit in de batch worden toegepast

Schemageneratie (begeleid)

Genereer een schema uit een voorbeelddocument

Voorbeeld-JSON genereren

Een voorbeeldentiteit uit een bronbestand extraheren

AI-schemabewerking

Verfijn een schema met natuurlijke taal + een referentiedocument

Playground

Vrije, aangepaste prompts met attachments

Twee leveringsmodi

Elk ondersteund MIME-type heeft een door de beheerder geconfigureerde bezorgmodus. De modus bepaalt hoe het bestand het model bereikt.

binaryNative bytes

De originele bytes worden als BinaryContent aan het model doorgegeven. Het model leest het bestand rechtstreeks — geen voorbewerking aan de serverkant.

Vereist een model met de bijbehorende capability-vlag (supports_pdf_input voor PDF's,supports_vision voor afbeeldingen,supports_audio_input voor audio). De modelkiezer wordt automatisch gefilterd om alleen compatibele modellen te tonen.

inline_textGeëxtraheerde tekst

Een extractor aan de serverzijde draait eenmalig bij het uploaden en slaat de resulterende tekst op in de cache. Bij elke volgende LLM-aanroep wordt de gecachete tekst in de user-prompt ingevoegd.

Geen modelcapaciteit vereist — werkt met elk model. Platte tekst en Markdown slaan de extractor over en decoderen de ruwe bytes rechtstreeks.

Ondersteunde formaten

Er zijn standaard 19 formaten ingeschakeld. Systeembeheerders kunnen elk formaat wisselen tussen binary- eninline_text-modus, het label wijzigen of het volledig uitschakelen via Model Management → Document policies.

Formaat	Extensies	Standaardmodus	Mogelijkheid / extractor
PDF-document	.pdf	binary	`supports_pdf_input`
PNG-afbeelding	.png	binary	`supports_vision`
JPEG-afbeelding	.jpg, .jpeg	binary	`supports_vision`
MP3-audio	.mp3	binary	`supports_audio_input`
WAV-audio	.wav	binary	`supports_audio_input`
M4A-audio	.m4a	binary	`supports_audio_input`
OGG-audio	.ogg, .oga	binary	`supports_audio_input`
FLAC-audio	.flac	binary	`supports_audio_input`
Platte tekst	.txt	inline_text	ruwe decodering
Markdown	.md, .markdown	inline_text	ruwe decodering
Word (verouderd .doc)	.doc	binary	docx2txt
Word (.docx)	.docx	binary	python-docx
OpenDocument-tekst	.odt	binary	odfpy
Rich Text Format	.rtf	binary	striprtf
EPUB-e-book	.epub	binary	ebooklib
HTML	.html, .htm	binary	beautifulsoup
CSV	.csv	binary	csv (stdlib)
Spreadsheet (.xlsx)	.xlsx	binary	openpyxl
Presentatie (.pptx)	.pptx	binary	python-pptx

Limieten

10 MB

Per bestand

Upload boven deze limiet weigeren

50 MB

Per verzoek

Som van alle bestanden in één upload

Geen limiet

Aantal bestanden

Alleen begrensd door het totaal van 50 MB per verzoek

Limiet geëxtraheerde tekst: 500 KB per bijlage — langere brondocumenten worden afgekapt bij server-side extractie. Extractor-timeout: 10s reële tijd per bijlage (uploads die de timeout overschrijden slagen alsnog; het bestand wordt opgeslagen maar de geëxtraheerde tekst is leeg).

Levenscyclus

Uploaden

Sleep bestanden of kies ze in het attachment-paneel van elke ondersteunde pagina. Het door de browser opgegeven inhoudstype wordt niet vertrouwd — de server controleert de magische bytes en weigert alles buiten de toegestane lijst. Elk bestand krijgt een hash (SHA-256) en wordt opgeslagen op versleutelde blokopslag.

Dedupliceren op inhoud

Identieke bytes die twee keer binnen dezelfde organisatie worden geüpload, worden ontdubbeld tot één opgeslagen bestand. Twee verschillende organisaties die hetzelfde bestand uploaden, leveren twee onafhankelijke rijen op — geen lekkage tussen tenants. De dedup-sleutel is (organization_id, sha256).

Eén keer extraheren (inline_text-modus)

Voor inline_text-formaten draait de extractor tijdens het uploaden en wordt de resulterende tekst gecachet op de rij van de attachment. Volgende LLM-aanroepen hergebruiken de gecachte tekst — geen kosten voor herextractie. binary-formaten slaan deze stap over.

Verwijs op ID in elke job

Na het uploaden worden bijlagen via ID doorgegeven in latere verrijkings-, schemageneratie- of playgroundverzoeken. Elke bijlage wordt aan de gebruikersinhoud van het model toegevoegd als native bytes (binary-modus) of als inline tekst (inline_text-modus), waarbij de oorspronkelijke bestandsnaam behouden blijft.

Bewaard op het record

Wanneer een verrijkingsrecord wordt opgeslagen, worden de bijlage-ID's eraan gekoppeld. De detailpagina van het record toont alle bijlagen met een downloadknop. Records kunnen opnieuw worden samengevoegd of opnieuw worden geprobeerd zonder opnieuw te uploaden.

Verwijderen na afloop (optioneel)

Zodra je een bestand niet meer nodig hebt, verwijder je het met DELETE /api/attachments/{id} — een handige opschoonstap na de verrijking. Verwijderen is org-scoped en geeft { success, id, filename } terug.

Bijlagen kunnen ook programmatisch worden geüpload en verwijderd, niet alleen via de web-UI: de n8n-connector uploadt via native multipart, de Make.com- en MCP-connectors uploaden via de base64-JSON-route, en elke client kan de REST API rechtstreeks gebruiken (DELETE /api/attachments/{id} voor opschonen).

Automatisch models filteren

Wanneer je een binair bestand met een capability-vereiste toevoegt (PDF, afbeelding of audio), wordt de modelkiezer gefilterd zodat alleen modellen worden getoond die die capability aanbieden. Als je meerdere bestanden met verschillende vereisten toevoegt, verschijnen alleen modellen die aan alle vereisten voldoen.

Toegevoegde bestanden	In aanmerking komende modellen
1 PDF	`supports_pdf_input`
1 PNG	`supports_vision`
1 MP3	`supports_audio_input`
1 PDF + 1 PNG	`supports_pdf_input` EN `supports_vision`
1 DOCX (binary-modus, geen mogelijkheid)	Alle modellen — native byte-ondersteuning wordt aangenomen als er geen capability-vlag is ingesteld
1 TXT of 1 MD (inline_text-modus)	Alle modellen — tekst wordt in de prompt opgenomen

Prijzen & tokengebruik

Bijlagen worden gefactureerd als invoertokens gerapporteerd door de modelprovider — Entity Enricher rekent geen aparte kosten per document. De kosten hangen af van het bestandstype en het geselecteerde model.

PDF's, afbeeldingen & audio (binary-modus)

Verbruiken modelspecifieke invoertokens. Anthropic rekent ongeveer 1700 tokens per PDF-pagina; OpenAI prijst vision-invoer op basis van het aantal tiles; modellen die audio ondersteunen meten audio-invoer naar rato van de duur. Bekijk de prijskaart van je model in Models & Pricing.

Office-documenten & spreadsheets (geëxtraheerde tekst)

De geëxtraheerde tekst verbruikt invoertokens tegen het standaard teksttarief. Grote documenten zijn begrensd op 500 KB geëxtraheerde tekst — langere inhoud wordt afgekapt.

Beveiliging en tenancy

MIME-allowlist met magic-byte-detectie

Het door de browser opgegeven content-type wordt genegeerd. De server inspecteert bestandsheaders en weigert alles buiten de geconfigureerde toegestane lijst.

Opslag op organisatieniveau

Elk bestand wordt opgeslagen onder de organization die het bezit. Het download-endpoint vereist lidmaatschap van de organization — er is geen route via de API om bij de bestanden van een andere tenant te komen.

Extractors in sandbox

Elke extractor draait met een wall-clock-time-out van 10 seconden binnen een try/except-grens. Een zich misdragend bestand kan het API-proces niet blokkeren of laten crashen.

Versleuteld in rust

Attachment-bytes worden opgeslagen op versleutelde block storage, gekoppeld aan de applicatiecontainer met beperkte rechten.

Door beheerder beheerde beleidsregels per MIME-type

Systeembeheerders kunnen elk formaat globaal uitschakelen, een formaat wijzigen van binary naar inline_text (of omgekeerd) of het opnieuw labelen. Wijzigingen worden van kracht bij de volgende upload van dat MIME-type.

Verrijkingsflow

Hoe bijlagen in de pipeline passen

Schemageneratie