Вложения документов — документация Entity Enricher

Вложения документов

Прикрепляйте PDF-файлы, изображения, аудиозаписи, документы Office, таблицы, слайды и текстовые файлы к любому запросу обогащения, генерации схем, генерации образцов, редактирования схемы с помощью ИИ или playground. Файлы поступают в модель либо в виде исходных байтов (для моделей с поддержкой PDF, изображений и аудио), либо в виде извлечённого на сервере текста, встроенного в промпт, — без ручного OCR, транскрибирования, конвертации или разбиения на фрагменты.

Где можно прикреплять документы

Одиночное обогащение

Вложения для каждой записи вместе с вводом JSON

Пакетное обогащение

Общие вложения, применяемые к каждой сущности в пакете

Генерация схемы (с подсказками)

Сгенерировать схему из образца документа

Генерация примера JSON

Извлечь образец сущности из исходного файла

ИИ-редактирование схемы

Уточните схему с помощью естественного языка и эталонного документа

Песочница

Произвольные пользовательские промпты с вложениями

Два режима доставки

Каждый поддерживаемый MIME-тип имеет заданный администратором режим доставки. Режим определяет, как файл попадает в модель.

binaryНативные байты

Исходные байты передаются модели как BinaryContent. Модель читает файл напрямую — без предварительной обработки на стороне сервера.

Требуется модель с соответствующим флагом возможностей (supports_pdf_input для PDF,supports_vision для изображений,supports_audio_input для аудио). Список выбора моделей автоматически фильтруется, чтобы показывать только совместимые модели.

inline_textИзвлечённый текст

Серверный экстрактор запускается один раз при загрузке и кэширует полученный текст. При каждом последующем вызове LLM кэшированный текст встраивается в пользовательский промпт.

Не требует возможностей модели — работает с любой моделью. Обычный текст и Markdown минуют экстрактор и декодируют исходные байты напрямую.

Поддерживаемые форматы

По умолчанию включены 19 форматов. Системные администраторы могут переключать любой формат между режимами binary иinline_text, изменять его название или полностью отключать его в разделе Управление моделями → Политики документов.

Формат	Расширения	Режим по умолчанию	Возможность / экстрактор
PDF-документ	.pdf	binary	`supports_pdf_input`
Изображение PNG	.png	binary	`supports_vision`
Изображение JPEG	.jpg, .jpeg	binary	`supports_vision`
Аудио MP3	.mp3	binary	`supports_audio_input`
Аудио WAV	.wav	binary	`supports_audio_input`
Аудио M4A	.m4a	binary	`supports_audio_input`
Аудио OGG	.ogg, .oga	binary	`supports_audio_input`
Аудио FLAC	.flac	binary	`supports_audio_input`
Обычный текст	.txt	inline_text	необработанное декодирование
Markdown	.md, .markdown	inline_text	необработанное декодирование
Word (устаревший .doc)	.doc	binary	docx2txt
Word (.docx)	.docx	binary	python-docx
Текст OpenDocument	.odt	binary	odfpy
Rich Text Format	.rtf	binary	striprtf
Электронная книга EPUB	.epub	binary	ebooklib
HTML	.html, .htm	binary	beautifulsoup
CSV	.csv	binary	csv (stdlib)
Таблица (.xlsx)	.xlsx	binary	openpyxl
Презентация (.pptx)	.pptx	binary	python-pptx

Лимиты

10 МБ

За файл

Отклонять загрузку сверх этого лимита

50 МБ

За запрос

Сумма всех файлов в одной загрузке

Без ограничений

Количество файлов

Ограничено только общим лимитом 50 МБ на запрос

Лимит извлечённого текста: 500 КБ на вложение — более длинные исходные документы обрезаются при извлечении на стороне сервера. Тайм-аут извлечения: 10 с реального времени на вложение (загрузки, превысившие тайм-аут, всё равно завершаются успешно; файл сохраняется, но его извлечённый текст пуст).

Жизненный цикл

Загрузить

Перетащите или выберите файлы на панели вложений на любой поддерживаемой странице. Тип содержимого, предоставленный браузером, не является доверенным — сервер анализирует сигнатурные байты и отклоняет всё, что не входит в белый список. Каждый файл хешируется (SHA-256) и хранится в зашифрованном блочном хранилище.

Дедупликация по содержимому

Идентичные байты, загруженные дважды в рамках одной организации, дедуплицируются в единственный сохранённый файл. Две разные организации, загружающие один и тот же файл, создают две независимые записи — без утечки между арендаторами. Ключ дедупликации — (organization_id, sha256).

Извлечь один раз (режим inline_text)

Для форматов inline_text экстрактор запускается при загрузке, а полученный текст кэшируется в строке вложения. Последующие вызовы LLM повторно используют кэшированный текст — без затрат на повторное извлечение. Форматы binary пропускают этот шаг.

Ссылка по ID в любом задании

После загрузки вложения передаются по ID в последующих запросах обогащения, генерации схемы или Playground. Каждое вложение добавляется в пользовательский контент модели либо как нативные байты (режим binary), либо как встроенный текст (режим inline_text), с сохранением исходного имени файла.

Сохранено в записи

Когда запись обогащения сохраняется, к ней привязываются идентификаторы вложений. На странице сведений о записи перечислены все вложения с кнопкой загрузки. Записи можно повторно объединять или повторять без повторной загрузки.

Удалить по завершении (необязательно)

Когда файл больше не нужен, удалите его через DELETE /api/attachments/{id} — удобный шаг очистки после обогащения. Удаление ограничено рамками организации и возвращает { success, id, filename }.

Вложения можно загружать и удалять программно, а не только через веб-интерфейс: коннектор n8n загружает их через нативный multipart, коннекторы Make.com и MCP — через маршрут base64 JSON, а любой клиент может напрямую использовать REST API (DELETE /api/attachments/{id} для очистки).

Автоматическая фильтрация моделей

Когда вы прикрепляете бинарный файл с требованием к возможностям (PDF, изображение или аудио), список моделей фильтруется и показывает только модели, заявляющие эту возможность. Если вы прикрепляете несколько файлов с разными требованиями, отображаются только модели, удовлетворяющие всем требованиям.

Прикреплённые файлы	Подходящие модели
1 PDF	`supports_pdf_input`
1 PNG	`supports_vision`
1 MP3	`supports_audio_input`
1 PDF + 1 PNG	`supports_pdf_input` И `supports_vision`
1 DOCX (режим binary, без возможности)	Все модели — при отсутствии флага возможностей предполагается нативная поддержка байтов
1 TXT или 1 MD (режим inline_text)	Все модели — текст встраивается в промпт

Тарифы и использование токенов

Вложения тарифицируются как входные токены, сообщаемые провайдером модели — Entity Enricher не взимает отдельную плату за документ. Стоимость зависит от типа файла и выбранной модели.

PDF, изображения и аудио (режим binary)

Потребляют входные токены, зависящие от модели. Anthropic взимает около 1700 токенов за страницу PDF; OpenAI оценивает входные изображения по количеству тайлов; модели с поддержкой аудио учитывают аудиовход пропорционально его длительности. Проверьте карточку цен вашей модели в разделе Модели и цены.

Офисные документы и таблицы (извлечённый текст)

Извлечённый текст расходует входные токены по стандартной ставке для текста. Большие документы ограничены 500 КБ извлечённого текста — более длинное содержимое усекается.

Безопасность и мультиарендность

Список разрешённых MIME-типов с проверкой сигнатурных байтов

Тип содержимого, предоставленный браузером, игнорируется. Сервер проверяет заголовки файлов и отклоняет всё, что не входит в настроенный список разрешений.

Хранилище в пределах организации

Каждый файл хранится под своей владеющей organization. Эндпоинт загрузки проверяет членство в организации — через API нет пути к файлам другого арендатора.

Экстракторы в песочнице

Каждый экстрактор выполняется с таймаутом реального времени в 10 секунд внутри границы try/except. Некорректный файл не может застопорить или обрушить процесс API.

Шифрование при хранении

Байты вложений хранятся в зашифрованном блочном хранилище, смонтированном в контейнер приложения с ограниченными правами доступа.

Управляемые администратором политики по типам MIME

Системные администраторы могут глобально отключить любой формат, изменить формат с binary на inline_text (или наоборот) или переименовать его. Изменения вступают в силу при следующей загрузке этого MIME-типа.

Процесс обогащения

Как вложения вписываются в конвейер

Генерация схемы