Allega PDF, immagini, registrazioni audio, documenti Office, fogli di calcolo, diapositive e file di testo a qualsiasi richiesta di arricchimento, generazione di schemi, generazione di campioni, modifica di schemi con IA o playground. I file raggiungono il modello come byte nativi (per i modelli in grado di gestire PDF, immagini e audio) oppure come testo estratto dal server e inserito nel prompt — senza necessità di OCR, trascrizione, conversione o suddivisione manuali.
Ogni tipo MIME supportato ha una modalità di consegna configurata dall'amministratore. La modalità determina come il file raggiunge il modello.
I byte originali vengono passati al modello come BinaryContent. Il modello legge il file direttamente — nessuna preelaborazione lato server.
Richiede un modello con il flag di capacità corrispondente (supports_pdf_input per i PDF,supports_vision per le immagini,supports_audio_input per l'audio). Il selettore dei modelli viene filtrato automaticamente per mostrare solo i modelli compatibili.
Un estrattore lato server viene eseguito una sola volta al momento del caricamento e memorizza nella cache il testo risultante. A ogni successiva chiamata LLM il testo memorizzato viene inserito nel prompt utente.
Nessuna capacità del modello richiesta — funziona con qualsiasi modello. Il testo semplice e il Markdown saltano l'estrattore e decodificano direttamente i byte grezzi.
19 formati sono abilitati per impostazione predefinita. Gli amministratori di sistema possono alternare qualsiasi formato tra la modalità binary einline_text, modificarne l'etichetta o disabilitarlo completamente da Gestione modelli → Criteri documenti.
| Formato | Estensioni | Modalità predefinita | Funzionalità / estrattore |
|---|---|---|---|
| Documento PDF | binary | supports_pdf_input | |
| Immagine PNG | .png | binary | supports_vision |
| Immagine JPEG | .jpg, .jpeg | binary | supports_vision |
| Audio MP3 | .mp3 | binary | supports_audio_input |
| Audio WAV | .wav | binary | supports_audio_input |
| Audio M4A | .m4a | binary | supports_audio_input |
| Audio OGG | .ogg, .oga | binary | supports_audio_input |
| Audio FLAC | .flac | binary | supports_audio_input |
| Testo semplice | .txt | inline_text | decodifica raw |
| Markdown | .md, .markdown | inline_text | decodifica raw |
| Word (.doc legacy) | .doc | binary | docx2txt |
| Word (.docx) | .docx | binary | python-docx |
| Testo OpenDocument | .odt | binary | odfpy |
| Rich Text Format | .rtf | binary | striprtf |
| Ebook EPUB | .epub | binary | ebooklib |
| HTML | .html, .htm | binary | beautifulsoup |
| CSV | .csv | binary | csv (stdlib) |
| Foglio di calcolo (.xlsx) | .xlsx | binary | openpyxl |
| Presentazione (.pptx) | .pptx | binary | python-pptx |
(organization_id, sha256).inline_text, l'estrattore viene eseguito al momento del caricamento e il testo risultante viene memorizzato nella cache sulla riga dell'attachment. Le chiamate LLM successive riutilizzano il testo memorizzato — senza costi di ri-estrazione. I formati binary saltano questo passaggio.DELETE /api/attachments/{id} — un comodo passaggio di pulizia post-arricchimento. L'eliminazione è limitata all'organizzazione e restituisce { success, id, filename }.Gli allegati possono essere caricati ed eliminati in modo programmatico, non solo dall'interfaccia web: il connettore n8n carica tramite multipart nativo, i connettori Make.com e MCP caricano tramite il percorso JSON base64 e qualsiasi client può usare direttamente l'API REST (DELETE /api/attachments/{id} per la pulizia).
Quando si allega un file binario con un requisito di capacità (PDF, immagine o audio), il selettore dei modelli viene filtrato per mostrare solo i modelli che dichiarano tale capacità. Se si allegano più file con requisiti diversi, vengono mostrati solo i modelli che soddisfano tutti i requisiti.
| File allegati | Modelli idonei |
|---|---|
| 1 PDF | supports_pdf_input |
| 1 PNG | supports_vision |
| 1 MP3 | supports_audio_input |
| 1 PDF + 1 PNG | supports_pdf_input E supports_vision |
| 1 DOCX (modalità binaria, nessuna capacità) | Tutti i modelli — il supporto nativo per i byte è presunto quando non è impostato alcun flag di capacità |
| 1 TXT o 1 MD (modalità inline_text) | Tutti i modelli — il testo viene incorporato nel prompt |
Gli allegati vengono fatturati come token di input riportati dal provider del modello — Entity Enricher non applica una tariffa separata per documento. Il costo dipende dal tipo di file e dal modello selezionato.
Consumano token di input specifici del modello. Anthropic addebita circa 1700 token per pagina PDF; OpenAI calcola il prezzo degli input visivi in base al numero di riquadri; i modelli in grado di gestire l'audio misurano l'input audio in proporzione alla sua durata. Consulta la scheda dei prezzi del tuo modello in Modelli e prezzi.
Il testo estratto consuma token di input alla tariffa standard per il testo. I documenti di grandi dimensioni sono limitati a 500 KB di testo estratto — i contenuti più lunghi vengono troncati.