モデルベンチマーク - Entity Enricher ドキュメント

モデルベンチマーク

ベンチマーク scenarioを使うと、実際の再現可能なエンリッチメントタスクでLLM modelを同じ条件で比較でき、各modelの出力と総コストを取得して、用途に適したmodelを選べます。

なぜbenchmarkするのか？

モデルは精度、構造化出力の信頼性、価格の点で大きく異なります。推測する代わりに、ベンチマークシナリオでは同じスキーマとエンティティを一度に多数のモデルで実行し、それぞれが生成した内容とコストを記録します。証拠に基づいて比較し、品質基準を満たす最も安価なモデルを確定できます。

仕組み

シナリオを定義します

ベンチマークシナリオとは、保存して再利用できるエンリッチメントテストです。スキーマ、固定のエンティティ入力（検索キーまたは生JSON）、エンリッチメント戦略、言語、レスポンススキーマ／厳密構造化出力のトグル、そして添付ファイルを含みます。また、ゴールドリファレンスと、それに対して結果をどう採点するか（オプションのジャッジモデル、埋め込みモデル、厳密度のしきい値）も保持します。一度定義すれば、比較したいすべてのモデルで再利用できます。

複数のモデルで実行

シナリオに検証済みリファレンスが設定されたら、1つのプロバイダーのアクティブなモデル、または表示中のすべてのアクティブなモデルに対して実行します。各モデルは独立してエンリッチメントされ、フュージョンは行われないため、モデルごとにクリーンな結果を横並びで得られます。進捗はライブでストリーミングされ、成功した各結果は実行の完了時にリファレンスと照合して自動的にスコアリングされます。

出力とコストを比較

すべての実行は、構造化された出力、成功ステータス、トークン数、処理時間、そして請求される合計コストとともに保存されます。任意の行を展開すると、JSON出力を確認したり、基となるエンリッチメントレコードに移動したりできます。

再実行して更新

同じモデルでシナリオを再実行すると、以前の結果が上書きされるため、テーブルには常に最新の実行結果が反映されます。シナリオの設定を編集すると、再実行するまで古い結果は古いとフラグ付けされます。モデルごとの実行回数を2または3に設定すると、各モデルはその回数だけベンチマークされ、テーブルにはコスト・品質・速度の平均に加えて一貫性のばらつき（モデルは実行ごとに変動します）が、おおよそその倍数のクレジットで保持されます。

結果の読み方

結果テーブルは比較用に設計されています。上部のサマリーストリップには、成功率と、成功したモデルのうち最も安価なものと最も高速なものが表示されます。モデル、ステータス、strategy、コスト、トークン、時間のすべての列が並べ替え可能なので、クリック一つでモデルを価格やレイテンシで順位付けできます。モデル名、ステータス、strategy でフィルタリングして表示を絞り込み、任意の行を展開して完全な構造化出力を読んだり、基となる enrichment record を開いたりできます。

反復: 再試行と無効化

ベンチマークは反復的なプロセスです。チェックボックスで行を選択し（範囲選択はShiftクリック）、··· メニューを使ってすべてを再実行せずに一部の行だけに操作を適用できます。

選択 / 失敗 / 古い分を再試行 — 該当するモデルのみを再実行し、結果はその場で上書きされます。失敗と古いは意図的に結果セット全体を対象とするため、アクティブなフィルターが再試行対象を隠すことはありません。
失敗した／選択したものを無効化 — modelをオフにして、enrichmentのピッカーに表示されないようにします。schemaで常に失敗するmodelや、出力が基準に達しないmodelを整理するのに便利です。

ゴールドリファレンスを設定します（ベンチマークに必要）

すべてのシナリオはリファレンス結果（そのエンティティに対する期待される出力）を保持し、シナリオはそのリファレンスが検証済みになって初めてベンチマークできます。それまでは、どの実行メニューにも表示されません。リファレンスは品質を判定するための基準です。各モデルがフィールドごとにどれだけ近づくか、そして（映画のキャストのようなリストでは）正しい項目のうち実際にいくつを見つけたかを判定します。リファレンスは、それに対して採点する際に使用するジャッジモデル、埋め込みモデル、厳密さとともに、シナリオエディターで直接設定します。

2つの方法で構築できます。生成する方法: 正しい値を含むドキュメント（データシートや公式ページ）を添付し、Web検索をオンにして、いくつかの強力なモデルを実行します。モデルは記憶からではなくソースから答えを抽出するため、結果は推測ではなく事実に基づいたものになります。または、すでにお持ちの信頼できる結果を貼り付ける方法もあります。いずれの場合も、JSONを確認し、必要に応じて修正し、検証済みとしてマークします。これはこれがゴールドアンサーであることを明示的に承認するものです。

リファレンスは根拠に基づき、一度人手で確認されているため、あらゆるmodelやあらゆる将来の実行で再利用できる信頼性の高い基準としても機能します。

見つかる場所

ベンチマークはモデル管理 → ベンチマークにあります（組織のオーナーおよび管理者が利用できます）。そこでシナリオを作成・管理するか、次の4か所のいずれかから実行を開始できます。ツールバーのモデルをベンチマークボタン（表示中のすべてのアクティブなモデル）、任意のプロバイダー行のモデルをベンチマークアクション（そのプロバイダーのアクティブなモデル）、モデルパネルでモデルを選択したときに表示されるベンチマークドロップダウン（選択したモデル）、または任意の単一モデル行のモデルをベンチマークアクションです。

コストと請求

ベンチマークの実行は、通常のエンリッチメントとまったく同じく、実際のLLM呼び出しを行い、実際の使用量に基づいてcreditを差し引きます。確認ダイアログには、支出が発生する前に、これから実行するmodelの数が表示されます。保存された各結果には請求されたコストが表示されるため、ベンチマークはコスト比較ツールとしても機能します。

ベンチマークのスコアリング

ゴールドリファレンスと照らして結果を採点します — 等価性、配列 F1、サブスコア。

モデルと料金

モデルを管理し、価格を同期し、ヘルスチェックを実行します。

エンリッチメント戦略

シングルパス vs エキスパートドメイン vs マルチエキスパティーズ。

コスト最適化

キャッシュとゲーティングでエンリッチメントを低コストに抑えます。

コストダッシュボード

時系列およびモデルごとの内訳で支出を分析します。