为任意增强、模式生成、样本生成、AI 模式编辑或演练场请求附加 PDF、图片、录音、Office 文档、电子表格、幻灯片和文本文件。文件可以原生字节形式(面向支持 PDF、视觉和音频的模型)送达模型,或以服务器提取的文本形式内联到提示词中——无需手动 OCR、转录、转换或分块。
每种受支持的 MIME 类型都有一个由管理员配置的投递模式。该模式决定文件如何送达 model。
原始字节以 BinaryContent 形式传递给模型。模型直接读取文件——无需服务器端预处理。
需要具备相应能力标志的模型(PDF 对应 supports_pdf_input,图片对应supports_vision,音频对应supports_audio_input)。模型选择器会自动筛选,仅显示兼容的模型。
服务器端提取器在上传时运行一次,并缓存生成的文本。在之后的每次 LLM 调用中,缓存的文本都会内联到用户提示词中。
无需模型能力要求 — 适用于所有模型。纯文本和 Markdown 会跳过提取器,直接解码原始字节。
默认启用 19 种格式。系统管理员可在 binary 和inline_text 模式之间切换任意格式、更改其标签,或从 模型管理 → 文档策略 中将其完全禁用。
| 格式 | 扩展 | 默认模式 | 能力 / 提取器 |
|---|---|---|---|
| PDF 文档 | binary | supports_pdf_input | |
| PNG 图像 | .png | binary | supports_vision |
| JPEG 图像 | .jpg, .jpeg | binary | supports_vision |
| MP3 音频 | .mp3 | binary | supports_audio_input |
| WAV 音频 | .wav | binary | supports_audio_input |
| M4A 音频 | .m4a | binary | supports_audio_input |
| OGG 音频 | .ogg, .oga | binary | supports_audio_input |
| FLAC 音频 | .flac | binary | supports_audio_input |
| 纯文本 | .txt | inline_text | 原始解码 |
| Markdown | .md, .markdown | inline_text | 原始解码 |
| Word(旧版 .doc) | .doc | binary | docx2txt |
| Word (.docx) | .docx | binary | python-docx |
| OpenDocument 文本 | .odt | binary | odfpy |
| 富文本格式 | .rtf | binary | striprtf |
| EPUB 电子书 | .epub | binary | ebooklib |
| HTML | .html, .htm | binary | beautifulsoup |
| CSV | .csv | binary | csv (stdlib) |
| 电子表格 (.xlsx) | .xlsx | binary | openpyxl |
| 演示文稿 (.pptx) | .pptx | binary | python-pptx |
(organization_id, sha256)。inline_text 格式,提取器会在上传时运行,生成的文本会缓存在附件行上。后续的 LLM 调用会复用缓存文本——无需再次提取,不产生额外费用。binary 格式会跳过此步骤。DELETE /api/attachments/{id} 将其删除——这是扩充完成后的一个便捷清理步骤。删除操作以组织为范围,并返回 { success, id, filename }。附件不仅可从网页 UI 上传和删除,也可通过编程方式进行:n8n 连接器通过原生 multipart 上传,Make.com 和 MCP 连接器通过 base64 JSON 方式上传,任何客户端都可以直接使用 REST API(用 DELETE /api/attachments/{id} 进行清理)。
当你附加带有能力要求的 二进制 文件(PDF、图像或音频)时,model 选择器会经过筛选,只显示声明了该能力的 model。如果你附加多个具有不同要求的文件,则只会显示满足 所有 要求的 model。
| 已附加的文件 | 符合条件的 model |
|---|---|
| 1 个 PDF | supports_pdf_input |
| 1 个 PNG | supports_vision |
| 1 个 MP3 | supports_audio_input |
| 1 个 PDF + 1 个 PNG | supports_pdf_input 且 supports_vision |
| 1 个 DOCX(二进制模式,无相应能力) | 所有模型 — 未设置能力标志时默认支持原生字节 |
| 1 个 TXT 或 1 个 MD(inline_text 模式) | 所有模型 — 文本内联到提示词中 |
附件按模型提供商所报告的输入 token 计费——Entity Enricher 不会单独收取按文档计费的费用。费用取决于文件类型和所选模型。
消耗特定于模型的输入 token。Anthropic 每个 PDF 页面约收取 1700 个 token;OpenAI 按图块数量对视觉输入计价;支持音频的模型则按音频时长比例计量音频输入。请在 模型与定价 中查看您所用模型的定价卡。
提取的文本按标准文本费率消耗输入 token。大型文档提取文本上限为 500 KB——超出部分将被截断。