ドキュメント添付ファイル - Entity Enricher ドキュメント

ドキュメント添付ファイル

PDF、画像、音声録音、Officeドキュメント、スプレッドシート、スライド、テキストファイルを、任意のenrichment、schema生成、サンプル生成、AI schema編集、playgroundリクエストに添付できます。ファイルはネイティブなバイトデータとして（PDF・ビジョン・音声に対応したmodel向け）、またはサーバーで抽出したテキストとしてpromptにインライン化されてmodelに渡されます。手動でのOCR、文字起こし、変換、チャンク分割は一切不要です。

ドキュメントを添付できる場所

単一エンリッチメント

JSON 入力に加えた record ごとの attachment

バッチエンリッチメント

バッチ内のすべてのエンティティに適用される共有添付ファイル

スキーマ生成（ガイド付き）

サンプルドキュメントからスキーマを生成します

サンプルJSON生成

ソースファイルからサンプルエンティティを抽出します

AIによるスキーマ編集

自然言語とリファレンスドキュメントでschemaを調整します

Playground

attachment付きの自由形式カスタムprompt

2つの配信モード

サポートされている各 MIME タイプには、管理者が設定した配信モードがあります。このモードによって、ファイルが model にどのように届くかが決まります。

binaryネイティブバイト

元のバイトは BinaryContent としてモデルに渡されます。モデルはファイルを直接読み取り、サーバー側の前処理は行いません。

対応する機能フラグを持つmodelが必要です（PDFにはsupports_pdf_input、画像にはsupports_vision、音声にはsupports_audio_input）。modelピッカーは互換性のあるmodelのみを表示するよう自動的にフィルタリングされます。

inline_text抽出されたテキスト

サーバーサイドの抽出処理はアップロード時に一度だけ実行され、結果のテキストをキャッシュします。以降のLLM呼び出しのたびに、キャッシュされたテキストがユーザープロンプトにインライン展開されます。

モデルの機能要件はありません — すべてのモデルで動作します。プレーンテキストとMarkdownはエクストラクターをスキップし、生のバイトを直接デコードします。

対応フォーマット

デフォルトで19種類のフォーマットが有効になっています。システム管理者はModel Management → Document policiesから、各フォーマットをbinaryモードとinline_textモードで切り替えたり、ラベルを変更したり、完全に無効化したりできます。

形式	拡張機能	デフォルトモード	機能 / エクストラクター
PDFドキュメント	.pdf	binary	`supports_pdf_input`
PNG 画像	.png	binary	`supports_vision`
JPEG画像	.jpg, .jpeg	binary	`supports_vision`
MP3音声	.mp3	binary	`supports_audio_input`
WAVオーディオ	.wav	binary	`supports_audio_input`
M4A音声	.m4a	binary	`supports_audio_input`
OGG音声	.ogg, .oga	binary	`supports_audio_input`
FLAC音声	.flac	binary	`supports_audio_input`
プレーンテキスト	.txt	inline_text	生デコード
Markdown	.md, .markdown	inline_text	生デコード
Word (レガシー .doc)	.doc	binary	docx2txt
Word (.docx)	.docx	binary	python-docx
OpenDocument テキスト	.odt	binary	odfpy
リッチテキスト形式	.rtf	binary	striprtf
EPUB 電子書籍	.epub	binary	ebooklib
HTML	.html, .htm	binary	beautifulsoup
CSV	.csv	binary	csv (stdlib)
スプレッドシート（.xlsx）	.xlsx	binary	openpyxl
プレゼンテーション (.pptx)	.pptx	binary	python-pptx

上限

10 MB

ファイルあたり

この上限を超えるアップロードを拒否します

50 MB

リクエストあたり

1回のアップロードに含まれる全ファイルの合計

制限なし

ファイル数

リクエストあたり合計50 MBの上限によってのみ制限されます

抽出テキストの上限: attachmentあたり500 KB — 長いソースドキュメントはサーバー側での抽出時に切り詰められます。抽出処理のタイムアウト: attachmentあたり実時間で10秒（タイムアウトを超えたアップロードも成功します。ファイルは保存されますが、抽出テキストは空になります）。

ライフサイクル

アップロード

対応する任意のページの添付ファイルパネルで、ファイルをドラッグ＆ドロップするか選択します。ブラウザーが提供するコンテンツタイプは信頼されません — サーバーがマジックバイトを解析し、許可リスト外のものはすべて拒否します。各ファイルはハッシュ化（SHA-256）され、暗号化されたブロックストレージに保存されます。

コンテンツによる重複排除

同一組織内で同一バイトが2回アップロードされると、1つの保存ファイルに重複排除されます。異なる2つの組織が同じファイルをアップロードすると、独立した2つの行が生成されます — テナント間の漏洩はありません。重複排除キーは(organization_id, sha256)です。

一度だけ抽出（inline_textモード）

inline_text形式の場合、抽出処理はアップロード時に実行され、生成されたテキストはattachmentの行にキャッシュされます。以降のLLM呼び出しではキャッシュされたテキストが再利用され、再抽出のコストは発生しません。binary形式ではこのステップはスキップされます。

任意のジョブでIDによって参照します

アップロードされた添付ファイルは、以降のエンリッチメント、スキーマ生成、またはプレイグラウンドのリクエストで ID によって渡されます。各添付ファイルは、ネイティブバイト（binary モード）またはインライン化されたテキスト（inline_text モード）のいずれかとしてモデルのユーザーコンテンツに追加され、元のファイル名が保持されます。

レコードに保存済み

enrichmentのrecordが保存されると、attachmentのIDがそれに紐付けられます。recordの詳細ページには、すべてのattachmentがダウンロードボタン付きで一覧表示されます。recordは再アップロードなしで再fusionまたは再試行できます。

完了時に削除（任意）

ファイルが不要になったら、DELETE /api/attachments/{id} で削除します — エンリッチメント後の便利なクリーンアップ手順です。削除は組織単位で行われ、{ success, id, filename } を返します。

添付ファイルは Web UI からだけでなく、プログラムからアップロードおよび削除できます。n8n コネクターはネイティブのマルチパートでアップロードし、Make.com と MCP のコネクターは base64 JSON ルートでアップロードします。また、任意のクライアントが REST API を直接使用できます（クリーンアップには DELETE /api/attachments/{id}）。

モデルの自動フィルタリング

機能要件のあるバイナリファイル（PDF、画像、オーディオ）をattachmentとして添付すると、modelピッカーはその機能を宣言しているmodelのみを表示するようフィルタリングされます。要件の異なる複数のファイルを添付した場合は、すべての要件を満たすmodelのみが表示されます。

添付ファイル	対象となる model
PDF 1件	`supports_pdf_input`
PNG 1件	`supports_vision`
MP3 × 1	`supports_audio_input`
PDF 1件 + PNG 1件	`supports_pdf_input` かつ `supports_vision`
DOCX 1件（バイナリモード、機能なし）	すべてのモデル — 機能フラグが設定されていない場合、ネイティブのバイトサポートが想定されます
TXT 1件または MD 1件（inline_text モード）	すべてのモデル — テキストはプロンプトにインライン展開されます

料金とトークン使用量

添付ファイルはモデルプロバイダーが報告する入力トークンとして課金されます。Entity Enricher はドキュメントごとの個別料金を請求しません。コストはファイルの種類と選択したモデルによって異なります。

PDF、画像、音声（binaryモード）

modelごとの入力トークンを消費します。Anthropicは1 PDFページあたり約1700トークンを課金し、OpenAIはビジョン入力をタイル数で課金し、音声対応のmodelは音声の長さに比例して入力を計測します。ご利用のmodelの料金カードはModels & Pricingでご確認ください。

Officeドキュメントとスプレッドシート（抽出されたテキスト）

抽出されたテキストは、標準のテキストレートで入力トークンを消費します。大きなドキュメントは抽出テキスト 500 KB を上限とし、それを超える内容は切り詰められます。