バッチ処理 - Entity Enricher ドキュメント

バッチ処理

最大100件のエンティティを、リアルタイムの進捗トラッキング、自動マルチモデルフュージョン、JSONまたはExcelへのエクスポートとともに並列にエンリッチします。

入力方法

バッチエンリッチメントでは、entityデータを提供する方法が2通りあります。

JSONエディター

エンティティのJSON配列を直接貼り付けるか入力してください。エディターは構文ハイライトと検証マーカーを提供し、セッションをまたいでデータをローカルストレージに保持します。

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

URLフェッチ

任意のREST APIエンドポイントからentityを取得します。一般的なレスポンスラッパーから配列を自動的に抽出します。

対応している認証方式:

なしBearer トークンAPIキーヘッダーBasic 認証

APIがオブジェクトを返す場合、システムはdataresultsitemsなどのキーに埋め込み配列がないか確認します。

エンティティの選択と検証

エンティティを読み込むと、検証ステータスとともに選択可能なリストに表示されます。バッチに含めるエンティティを選択できます:

複数選択クリックして個々のエンティティを選択します。範囲選択には Shift+クリックを使用します。Ctrl+A ですべて選択、Ctrl+D ですべての選択を解除します。
インライン編集検索キーフィールド(名前、国など)をクリックすると、エンリッチメントの前にリスト内で直接編集できます。
検証各 entity は schema の検索キーに対して検証されます。少なくとも1つの検索キーを入力する必要があります。無効な entity は警告が表示されますが、それでも選択できます。
選択的処理選択されたエンティティのみがエンリッチメントに送信されます。処理したくないエンティティは選択を解除してください。

設定

サイドバーは、単一 enrichment の設定オプションを反映しています。

オプション説明
スキーマenrichment 出力の構造を定義する対象 schema
戦略シングルパス、専門ドメイン、またはマルチエキスパティーズ(ドメインごとの並列呼び出し)
モデルエンティティごとに実行する1つ以上の AI モデル。複数のモデルを指定すると自動フュージョンが有効になります。
言語多言語フィールドのエンリッチメント用の言語(例: 英語+フランス語)
classificationエンリッチメント前のエンティティ型検証のための任意の高速モデル
アービトレーションfusion 中の LLM ベースの競合解決に使用するモデル。未設定の場合は、ルールベースのマージが使用されます。

コスト見積もり

batchを開始する前に、確認ダイアログにコストの見積もりと概要が表示されます。見積もりは、プロパティ数、modelの価格、選択したentityおよびmodelの数に基づいて計算されます。LLM呼び出しの合計数が100を超えると警告が表示されます。

エンティティ
20
モデル
2
呼び出し合計
~40
推定コスト
~$1.50

並列実行

選択したすべてのエンティティが同時に処理されます。各エンティティは、完全なエンリッチメントパイプラインを独立して通過します:

entity ごとのパイプライン

  1. Classification(任意)— 高速なmodelがentityの種類を検証します。batchモードでは、不一致があってもジョブは停止せず、コンテキストがそのまま引き継がれます。
  2. マルチモデルエンリッチメント — 選択した各モデルがエンティティを並列でエンリッチし、プロバイダーごとにレート制限を適用します。
  3. 自動フュージョン(2 つ以上のモデルが成功した場合) — 結果は競合の検出と解決を使用して自動的にマージされます。

レート制限

グローバルなレート制限により、AIプロバイダーへの過負荷を防ぎます。すべてのエンティティは、プロバイダーごとに同じ同時実行数の上限(通常はプロバイダーあたり5件の同時呼び出し)を共有します。20のエンティティと2つのモデルがある場合、プロバイダーごとに最大5件の呼び出しが同時に実行され、残りは空きを待ちます。これにより、APIのレート制限に達することなく、信頼性の高い実行が保証されます。

リアルタイム進捗

結果パネルは、Server-Sent Events(SSE)を使用してライブで進捗を表示します。各 entity には、リアルタイムで更新される折りたたみ可能なカードがあります。

保留中

処理の開始を待機中

実行中

現在エンリッチメント中で、ドメインごとの完了状況を示す専門ドメインの進捗バッジが表示されます

完了

すべてのモデルが正常に完了しました。カードは自動的に折りたたまれます。

部分的

一部のmodelまたはexpertiseが失敗しました。部分的な結果を利用できます。

失敗

このエンティティですべてのモデルが失敗しました。エラーの詳細を表示しています。

キャンセルとエラー処理

実行中のバッチはいつでもキャンセルできます。キャンセルは協調的です — すでに処理中のエンティティは現在の LLM 呼び出しを完了しますが、新しい呼び出しは開始されません。完了したエンティティの部分的な結果は保持されます。

エラー耐性

バッチ処理は耐障害性を備えて設計されています。個々の失敗によってbatchが停止することはありません。

  • エンティティの分類が失敗した場合、エンリッチメントはコンテキストなしで続行されます
  • 1つのモデルが失敗しても、そのエンティティの他のモデルは続行されます
  • エンティティのすべてのモデルが失敗した場合、そのエンティティは失敗としてマークされ、他のエンティティは続行されます
  • 「見つかりません」エラーを返すモデルは自動的に無効化されます

エクスポート形式

バッチ完了後、結果を3つの形式でエクスポートできます。各エンティティについて、フュージョン結果が利用可能な場合はそれが優先され、そうでない場合は最良のモデル結果が使用されます。

JSONファイル

すべてのエンティティデータ、モデル出力、フュージョンのメタデータを含む構造化された JSON ファイルとして、完全な結果をダウンロードできます。

クリップボード

JSON の結果を直接クリップボードにコピーして、他のツールやスクリプトに貼り付けられます。

Excel

3シート構成のワークブック:Results(エンティティごとに1行、プロパティをフラット化)、Summary(バッチのメタデータ、モデル、コスト)、Conflicts(エンティティごとの競合の詳細と解決の根拠)。

上限

上限
バッチあたりの最大エンティティ数100
エンティティデータの最大サイズ50,000文字
最大プロンプト長100,000文字
URLフェッチのタイムアウト30秒

次のステップ