PDF、画像、音声録音、Officeドキュメント、スプレッドシート、スライド、テキストファイルを、任意のenrichment、schema生成、サンプル生成、AI schema編集、playgroundリクエストに添付できます。ファイルはネイティブなバイトデータとして(PDF・ビジョン・音声に対応したmodel向け)、またはサーバーで抽出したテキストとしてpromptにインライン化されてmodelに渡されます。手動でのOCR、文字起こし、変換、チャンク分割は一切不要です。
サポートされている各 MIME タイプには、管理者が設定した配信モードがあります。このモードによって、ファイルが model にどのように届くかが決まります。
元のバイトは BinaryContent としてモデルに渡されます。モデルはファイルを直接読み取り、サーバー側の前処理は行いません。
対応する機能フラグを持つmodelが必要です(PDFにはsupports_pdf_input、画像にはsupports_vision、音声にはsupports_audio_input)。modelピッカーは互換性のあるmodelのみを表示するよう自動的にフィルタリングされます。
サーバーサイドの抽出処理はアップロード時に一度だけ実行され、結果のテキストをキャッシュします。以降のLLM呼び出しのたびに、キャッシュされたテキストがユーザープロンプトにインライン展開されます。
モデルの機能要件はありません — すべてのモデルで動作します。プレーンテキストとMarkdownはエクストラクターをスキップし、生のバイトを直接デコードします。
デフォルトで19種類のフォーマットが有効になっています。システム管理者はModel Management → Document policiesから、各フォーマットをbinaryモードとinline_textモードで切り替えたり、ラベルを変更したり、完全に無効化したりできます。
| 形式 | 拡張機能 | デフォルトモード | 機能 / エクストラクター |
|---|---|---|---|
| PDFドキュメント | binary | supports_pdf_input | |
| PNG 画像 | .png | binary | supports_vision |
| JPEG画像 | .jpg, .jpeg | binary | supports_vision |
| MP3音声 | .mp3 | binary | supports_audio_input |
| WAVオーディオ | .wav | binary | supports_audio_input |
| M4A音声 | .m4a | binary | supports_audio_input |
| OGG音声 | .ogg, .oga | binary | supports_audio_input |
| FLAC音声 | .flac | binary | supports_audio_input |
| プレーンテキスト | .txt | inline_text | 生デコード |
| Markdown | .md, .markdown | inline_text | 生デコード |
| Word (レガシー .doc) | .doc | binary | docx2txt |
| Word (.docx) | .docx | binary | python-docx |
| OpenDocument テキスト | .odt | binary | odfpy |
| リッチテキスト形式 | .rtf | binary | striprtf |
| EPUB 電子書籍 | .epub | binary | ebooklib |
| HTML | .html, .htm | binary | beautifulsoup |
| CSV | .csv | binary | csv (stdlib) |
| スプレッドシート(.xlsx) | .xlsx | binary | openpyxl |
| プレゼンテーション (.pptx) | .pptx | binary | python-pptx |
(organization_id, sha256)です。inline_text形式の場合、抽出処理はアップロード時に実行され、生成されたテキストはattachmentの行にキャッシュされます。以降のLLM呼び出しではキャッシュされたテキストが再利用され、再抽出のコストは発生しません。binary形式ではこのステップはスキップされます。DELETE /api/attachments/{id} で削除します — エンリッチメント後の便利なクリーンアップ手順です。削除は組織単位で行われ、{ success, id, filename } を返します。添付ファイルは Web UI からだけでなく、プログラムからアップロードおよび削除できます。n8n コネクターはネイティブのマルチパートでアップロードし、Make.com と MCP のコネクターは base64 JSON ルートでアップロードします。また、任意のクライアントが REST API を直接使用できます(クリーンアップには DELETE /api/attachments/{id})。
機能要件のあるバイナリファイル(PDF、画像、オーディオ)をattachmentとして添付すると、modelピッカーはその機能を宣言しているmodelのみを表示するようフィルタリングされます。要件の異なる複数のファイルを添付した場合は、すべての要件を満たすmodelのみが表示されます。
| 添付ファイル | 対象となる model |
|---|---|
| PDF 1件 | supports_pdf_input |
| PNG 1件 | supports_vision |
| MP3 × 1 | supports_audio_input |
| PDF 1件 + PNG 1件 | supports_pdf_input かつ supports_vision |
| DOCX 1件(バイナリモード、機能なし) | すべてのモデル — 機能フラグが設定されていない場合、ネイティブのバイトサポートが想定されます |
| TXT 1件 または MD 1件(inline_text モード) | すべてのモデル — テキストはプロンプトにインライン展開されます |
添付ファイルはモデルプロバイダーが報告する入力トークンとして課金されます。Entity Enricher はドキュメントごとの個別料金を請求しません。コストはファイルの種類と選択したモデルによって異なります。
modelごとの入力トークンを消費します。Anthropicは1 PDFページあたり約1700トークンを課金し、OpenAIはビジョン入力をタイル数で課金し、音声対応のmodelは音声の長さに比例して入力を計測します。ご利用のmodelの料金カードはModels & Pricingでご確認ください。
抽出されたテキストは、標準のテキストレートで入力トークンを消費します。大きなドキュメントは抽出テキスト 500 KB を上限とし、それを超える内容は切り詰められます。