マルチモデルエンリッチメントとフュージョン - Entity Enricher

マルチモデルエンリッチメントとフュージョン

同じエンティティに対して複数のAIモデルを並列実行し、それぞれの出力間のフィールドレベルの競合を検出して、結果を単一の高信頼度レコードにフュージョンします。これがEntity Enricherの核となる差別化ポイントです。単一のLLMを信頼するのではなく、複数のプロバイダー間でクロス検証することで、最大限のデータ精度を実現します。

マルチモデルエンリッチメントの仕組み

入力

エンティティデータ + スキーマ

Claude

独立してエンリッチします

GPT-4

独立してエンリッチします

Gemini

独立してエンリッチします

コンフリクト検出

すべてのmodel出力にわたるフィールドごとの比較

オプションA

ルールベースのマージ

多数決、中央値、和集合

オプションB

LLM調停

AIが推論によって解決します

フュージョン出力

監査証跡付きの単一の高信頼度レコード

並列モデル実行

enrichment ジョブに複数の model を選択すると、Entity Enricher は同じ entity データと schema を各 model へ同時に送信します。各 model は他の model の出力を知らずに独立して実行され、真に独立したデータポイントを保証します。

本システムは、プロバイダーの任意の組み合わせをサポートしています。Anthropic Claude、OpenAI GPT-4、Google Gemini、Mistral、または Ollama 経由のセルフホストモデルなどです。プロバイダーごとのレート制限により、各プロバイダーの API 制限内に収まりつつ、スループットを最大化できます。

リアルタイムのSSEストリーミングにより、各モデルの完了に合わせて進捗が表示されます。マルチ専門領域戦略を使用する場合は専門領域ごとの進捗も含まれます。すべてのモデルが完了する前に部分的な結果を確認できます。

型を考慮した競合検出

すべてのモデルが完了すると、競合検出エンジンがそれらの出力をフィールドごとに比較します。この比較は型を認識し、フィールドの型ごとに異なる比較ルールが使用されます:

フィールドタイプ比較方法一致ルール
文字列 / スカラー完全一致(正規化済み)大文字小文字/空白の正規化後、すべての値が等しい必要があります
数値数値の完全一致すべての値が同一の数値である必要があります
ブール値完全一致すべてのモデルがtrue/falseで一致する必要があります
多言語対応言語ごとの比較各言語キーを個別に比較
配列集合比較(順序は無視)順序に関係なく同じ項目
オブジェクトプロパティ単位の再帰処理すべてのネストされたフィールドが一致する必要があります
Null値null == 欠損Nullと欠損は同等として扱われます

コンフリクトの解決方法

ルールベースのマージ

投票ルールによる確定的な解決です。高速で予測可能、追加の LLM 呼び出しは不要です。

  • 文字列: 多数決。同数の場合は最も長い値で決着します(詳細が多い方が良い)。
  • 数値: 中央値。単一のモデルによる外れ値に対して頑健です。
  • ブール値: 多数決。同数の場合は True が優先されます(保守的)。
  • 配列: すべての項目の和集合。すべての情報を保持します。
  • オブジェクト: 上記のルールをフィールドごとに再帰的に適用します。
  • Null: null以外の値が優先されます。データの欠落はどんな値よりも悪い状態です。

LLM調停

調停モデルが、エンティティのコンテキストとフィールドの説明を用いて各競合をレビューし、構造化された判断を行います。

  • 理由付け: 各決定には、なぜその値が選ばれたのかを自然言語で説明したものが含まれます。
  • 信頼度: 各判断ごとの高・中・低の信頼度スコアです。
  • 選択された値: arbitrationが利用可能なmodelの出力から選択するか、より優れた回答を合成します。
  • フォールバック: arbitrationが失敗した場合、システムは自動的にルールベースのマージにフォールバックします。

完全な監査証跡

フュージョンされたすべてのレコードには、完全な来歴を持つアービトレーションメタデータが含まれます:

このメタデータはフュージョンされたレコードとともに保存され、Excelの競合シートにエクスポートされます。これにより、意思決定の来歴が重要となるコンプライアンスワークフローに適しています。

マルチモデル enrichment が最も重要になる場面

重要度の高いデータ

財務デューデリジェンス、医薬品の安全性プロファイル、そして誤りが重大な結果をもたらすコンプライアンススクリーニング。

争点となる事実

複数のソース間で情報が矛盾するエンティティ(ソースによって報告が異なる資金調達額、設立日、規制ステータスなど)。

カバー範囲のギャップ

単一の model が完全な知識を持たない場合。LLM ごとに学習データが異なるため、複数の model を実行することでギャップを埋められます。

信頼度要件

下流の利用側が最終的な値だけでなく、各データポイントの信頼度スコアと出所情報を必要とする場合に適しています。

マルチモデルエンリッチメントを試す

2つ以上のモデルを選択して並列実行し、フュージョンがどのように競合を解決するかをご覧ください。月額契約は不要です。ご自身のAPIキーを使用し、トークンごとにお支払いいただけます。

無料で始める