Documentbijlagen - Entity Enricher-documentatie

Documentbijlagen

Voeg PDF's, afbeeldingen, audio-opnamen, Office-documenten, spreadsheets, slides en tekstbestanden toe aan elk verzoek voor verrijking, schemageneratie, samplegeneratie, AI-schemabewerking of playground. Bestanden bereiken het model ofwel als native bytes (voor modellen die PDF, vision en audio ondersteunen) ofwel als server-geëxtraheerde tekst die in de prompt wordt opgenomen — geen handmatige OCR, transcriptie, conversie of chunking vereist.

Waar je documenten kunt toevoegen

Enkele enrichment
Bijlagen per record naast JSON-invoer
Batchverrijking
Gedeelde bijlagen die op elke entiteit in de batch worden toegepast
Schemageneratie (begeleid)
Genereer een schema uit een voorbeelddocument
Voorbeeld-JSON genereren
Een voorbeeldentiteit uit een bronbestand extraheren
AI-schemabewerking
Verfijn een schema met natuurlijke taal + een referentiedocument
Playground
Vrije, aangepaste prompts met attachments

Twee leveringsmodi

Elk ondersteund MIME-type heeft een door de beheerder geconfigureerde bezorgmodus. De modus bepaalt hoe het bestand het model bereikt.

binaryNative bytes

De originele bytes worden als BinaryContent aan het model doorgegeven. Het model leest het bestand rechtstreeks — geen voorbewerking aan de serverkant.

Vereist een model met de bijbehorende capability-vlag (supports_pdf_input voor PDF's,supports_vision voor afbeeldingen,supports_audio_input voor audio). De modelkiezer wordt automatisch gefilterd om alleen compatibele modellen te tonen.

inline_textGeëxtraheerde tekst

Een extractor aan de serverzijde draait eenmalig bij het uploaden en slaat de resulterende tekst op in de cache. Bij elke volgende LLM-aanroep wordt de gecachete tekst in de user-prompt ingevoegd.

Geen modelcapaciteit vereist — werkt met elk model. Platte tekst en Markdown slaan de extractor over en decoderen de ruwe bytes rechtstreeks.

Ondersteunde formaten

Er zijn standaard 19 formaten ingeschakeld. Systeembeheerders kunnen elk formaat wisselen tussen binary- eninline_text-modus, het label wijzigen of het volledig uitschakelen via Model Management → Document policies.

FormaatExtensiesStandaardmodusMogelijkheid / extractor
PDF-document.pdfbinarysupports_pdf_input
PNG-afbeelding.pngbinarysupports_vision
JPEG-afbeelding.jpg, .jpegbinarysupports_vision
MP3-audio.mp3binarysupports_audio_input
WAV-audio.wavbinarysupports_audio_input
M4A-audio.m4abinarysupports_audio_input
OGG-audio.ogg, .ogabinarysupports_audio_input
FLAC-audio.flacbinarysupports_audio_input
Platte tekst.txtinline_textruwe decodering
Markdown.md, .markdowninline_textruwe decodering
Word (verouderd .doc).docbinarydocx2txt
Word (.docx).docxbinarypython-docx
OpenDocument-tekst.odtbinaryodfpy
Rich Text Format.rtfbinarystriprtf
EPUB-e-book.epubbinaryebooklib
HTML.html, .htmbinarybeautifulsoup
CSV.csvbinarycsv (stdlib)
Spreadsheet (.xlsx).xlsxbinaryopenpyxl
Presentatie (.pptx).pptxbinarypython-pptx

Limieten

10 MB
Per bestand
Upload boven deze limiet weigeren
50 MB
Per verzoek
Som van alle bestanden in één upload
Geen limiet
Aantal bestanden
Alleen begrensd door het totaal van 50 MB per verzoek
Limiet geëxtraheerde tekst: 500 KB per bijlage — langere brondocumenten worden afgekapt bij server-side extractie. Extractor-timeout: 10s reële tijd per bijlage (uploads die de timeout overschrijden slagen alsnog; het bestand wordt opgeslagen maar de geëxtraheerde tekst is leeg).

Levenscyclus

1
Uploaden
Sleep bestanden of kies ze in het attachment-paneel van elke ondersteunde pagina. Het door de browser opgegeven inhoudstype wordt niet vertrouwd — de server controleert de magische bytes en weigert alles buiten de toegestane lijst. Elk bestand krijgt een hash (SHA-256) en wordt opgeslagen op versleutelde blokopslag.
2
Dedupliceren op inhoud
Identieke bytes die twee keer binnen dezelfde organisatie worden geüpload, worden ontdubbeld tot één opgeslagen bestand. Twee verschillende organisaties die hetzelfde bestand uploaden, leveren twee onafhankelijke rijen op — geen lekkage tussen tenants. De dedup-sleutel is (organization_id, sha256).
3
Eén keer extraheren (inline_text-modus)
Voor inline_text-formaten draait de extractor tijdens het uploaden en wordt de resulterende tekst gecachet op de rij van de attachment. Volgende LLM-aanroepen hergebruiken de gecachte tekst — geen kosten voor herextractie. binary-formaten slaan deze stap over.
4
Verwijs op ID in elke job
Na het uploaden worden bijlagen via ID doorgegeven in latere verrijkings-, schemageneratie- of playgroundverzoeken. Elke bijlage wordt aan de gebruikersinhoud van het model toegevoegd als native bytes (binary-modus) of als inline tekst (inline_text-modus), waarbij de oorspronkelijke bestandsnaam behouden blijft.
5
Bewaard op het record
Wanneer een verrijkingsrecord wordt opgeslagen, worden de bijlage-ID's eraan gekoppeld. De detailpagina van het record toont alle bijlagen met een downloadknop. Records kunnen opnieuw worden samengevoegd of opnieuw worden geprobeerd zonder opnieuw te uploaden.
6
Verwijderen na afloop (optioneel)
Zodra je een bestand niet meer nodig hebt, verwijder je het met DELETE /api/attachments/{id} — een handige opschoonstap na de verrijking. Verwijderen is org-scoped en geeft { success, id, filename } terug.

Bijlagen kunnen ook programmatisch worden geüpload en verwijderd, niet alleen via de web-UI: de n8n-connector uploadt via native multipart, de Make.com- en MCP-connectors uploaden via de base64-JSON-route, en elke client kan de REST API rechtstreeks gebruiken (DELETE /api/attachments/{id} voor opschonen).

Automatisch models filteren

Wanneer je een binair bestand met een capability-vereiste toevoegt (PDF, afbeelding of audio), wordt de modelkiezer gefilterd zodat alleen modellen worden getoond die die capability aanbieden. Als je meerdere bestanden met verschillende vereisten toevoegt, verschijnen alleen modellen die aan alle vereisten voldoen.

Toegevoegde bestandenIn aanmerking komende modellen
1 PDFsupports_pdf_input
1 PNGsupports_vision
1 MP3supports_audio_input
1 PDF + 1 PNGsupports_pdf_input EN supports_vision
1 DOCX (binary-modus, geen mogelijkheid)Alle modellen — native byte-ondersteuning wordt aangenomen als er geen capability-vlag is ingesteld
1 TXT of 1 MD (inline_text-modus)Alle modellen — tekst wordt in de prompt opgenomen

Prijzen & tokengebruik

Bijlagen worden gefactureerd als invoertokens gerapporteerd door de modelprovider — Entity Enricher rekent geen aparte kosten per document. De kosten hangen af van het bestandstype en het geselecteerde model.

PDF's, afbeeldingen & audio (binary-modus)

Verbruiken modelspecifieke invoertokens. Anthropic rekent ongeveer 1700 tokens per PDF-pagina; OpenAI prijst vision-invoer op basis van het aantal tiles; modellen die audio ondersteunen meten audio-invoer naar rato van de duur. Bekijk de prijskaart van je model in Models & Pricing.

Office-documenten & spreadsheets (geëxtraheerde tekst)

De geëxtraheerde tekst verbruikt invoertokens tegen het standaard teksttarief. Grote documenten zijn begrensd op 500 KB geëxtraheerde tekst — langere inhoud wordt afgekapt.

Beveiliging en tenancy

MIME-allowlist met magic-byte-detectie
Het door de browser opgegeven content-type wordt genegeerd. De server inspecteert bestandsheaders en weigert alles buiten de geconfigureerde toegestane lijst.
Opslag op organisatieniveau
Elk bestand wordt opgeslagen onder de organization die het bezit. Het download-endpoint vereist lidmaatschap van de organization — er is geen route via de API om bij de bestanden van een andere tenant te komen.
Extractors in sandbox
Elke extractor draait met een wall-clock-time-out van 10 seconden binnen een try/except-grens. Een zich misdragend bestand kan het API-proces niet blokkeren of laten crashen.
Versleuteld in rust
Attachment-bytes worden opgeslagen op versleutelde block storage, gekoppeld aan de applicatiecontainer met beperkte rechten.
Door beheerder beheerde beleidsregels per MIME-type
Systeembeheerders kunnen elk formaat globaal uitschakelen, een formaat wijzigen van binary naar inline_text (of omgekeerd) of het opnieuw labelen. Wijzigingen worden van kracht bij de volgende upload van dat MIME-type.