Adjunte PDF, imágenes, grabaciones de audio, documentos de Office, hojas de cálculo, diapositivas y archivos de texto a cualquier solicitud de enriquecimiento, generación de esquemas, generación de muestras, edición de esquemas con IA o playground. Los archivos llegan al modelo como bytes nativos (para modelos con capacidad de PDF, visión y audio) o como texto extraído por el servidor e insertado en el prompt: sin necesidad de OCR, transcripción, conversión ni segmentación manuales.
Cada tipo MIME admitido tiene un modo de entrega configurado por el administrador. El modo determina cómo llega el archivo al model.
Los bytes originales se pasan al modelo como BinaryContent. El modelo lee el archivo directamente, sin preprocesamiento en el servidor.
Requiere un modelo con el indicador de capacidad correspondiente (supports_pdf_input para PDF,supports_vision para imágenes,supports_audio_input para audio). El selector de modelos se filtra automáticamente para mostrar solo los modelos compatibles.
Un extractor del lado del servidor se ejecuta una sola vez al subir el archivo y almacena en caché el texto resultante. En cada llamada posterior al LLM, el texto en caché se inserta en el prompt del usuario.
No se requiere ninguna capacidad del model — funciona con todos los models. El texto sin formato y Markdown omiten el extractor y decodifican los bytes sin procesar directamente.
19 formatos vienen habilitados por defecto. Los administradores del sistema pueden cambiar cualquier formato entre el modo binary einline_text, modificar su etiqueta o deshabilitarlo por completo desde Gestión de modelos → Políticas de documentos.
| Formato | Extensiones | Modo predeterminado | Capacidad / extractor |
|---|---|---|---|
| Documento PDF | binary | supports_pdf_input | |
| Imagen PNG | .png | binary | supports_vision |
| Imagen JPEG | .jpg, .jpeg | binary | supports_vision |
| Audio MP3 | .mp3 | binary | supports_audio_input |
| Audio WAV | .wav | binary | supports_audio_input |
| Audio M4A | .m4a | binary | supports_audio_input |
| Audio OGG | .ogg, .oga | binary | supports_audio_input |
| Audio FLAC | .flac | binary | supports_audio_input |
| Texto sin formato | .txt | inline_text | decodificación en bruto |
| Markdown | .md, .markdown | inline_text | decodificación en bruto |
| Word (.doc heredado) | .doc | binary | docx2txt |
| Word (.docx) | .docx | binary | python-docx |
| Texto de OpenDocument | .odt | binary | odfpy |
| Formato de texto enriquecido | .rtf | binary | striprtf |
| Libro electrónico EPUB | .epub | binary | ebooklib |
| HTML | .html, .htm | binary | beautifulsoup |
| CSV | .csv | binary | csv (stdlib) |
| Hoja de cálculo (.xlsx) | .xlsx | binary | openpyxl |
| Presentación (.pptx) | .pptx | binary | python-pptx |
(organization_id, sha256).inline_text, el extractor se ejecuta durante la carga y el texto resultante se almacena en caché en la fila del adjunto. Las llamadas posteriores al LLM reutilizan el texto en caché, sin coste de reextracción. Los formatos binary omiten este paso.DELETE /api/attachments/{id}: un práctico paso de limpieza posterior al enriquecimiento. La eliminación tiene alcance de organización y devuelve { success, id, filename }.Los adjuntos se pueden cargar y eliminar mediante programación, no solo desde la interfaz web: el conector de n8n carga mediante multipart nativo, los conectores de Make.com y MCP cargan mediante la ruta JSON en base64, y cualquier cliente puede usar la API REST directamente (DELETE /api/attachments/{id} para la limpieza).
Cuando adjunta un archivo binario con un requisito de capacidad (PDF, imagen o audio), el selector de modelos se filtra para mostrar solo los modelos que declaran esa capacidad. Si adjunta varios archivos con requisitos diferentes, solo aparecen los modelos que cumplen todos los requisitos.
| Archivos adjuntos | Models elegibles |
|---|---|
| 1 PDF | supports_pdf_input |
| 1 PNG | supports_vision |
| 1 MP3 | supports_audio_input |
| 1 PDF + 1 PNG | supports_pdf_input Y supports_vision |
| 1 DOCX (modo binario, sin capacidad) | Todos los modelos: se asume compatibilidad nativa con bytes cuando no se establece ningún indicador de capacidad |
| 1 TXT o 1 MD (modo inline_text) | Todos los modelos: el texto se incorpora al prompt |
Los adjuntos se facturan como tokens de entrada notificados por el proveedor del modelo: Entity Enricher no cobra una tarifa independiente por documento. El coste depende del tipo de archivo y del modelo seleccionado.
Consumen tokens de entrada específicos de cada modelo. Anthropic cobra alrededor de 1700 tokens por página de PDF; OpenAI factura las entradas de visión según el número de mosaicos; los modelos con capacidad de audio miden la entrada de audio en proporción a su duración. Consulte la ficha de precios de su modelo en Modelos y precios.
El texto extraído consume tokens de entrada a la tarifa estándar de texto. Los documentos grandes se limitan a 500 KB de texto extraído; el contenido más largo se trunca.