模型基准测试 - Entity Enricher 文档

模型基准测试

基准测试场景让您可以在真实、可重复的丰富化任务上对 LLM 模型进行同类比较，捕获每个模型的输出和总成本，以便为任务选择合适的模型。

为何进行基准测试？

不同模型在准确性、结构化输出可靠性和价格上差异巨大。与其靠猜测，基准测试场景会将同一个模式和实体同时交由多个模型处理，并记录每个模型的产出及其成本。你可以基于证据进行比较，然后锁定满足你质量标准的最便宜模型。

工作原理

定义一个 scenario

基准场景是一个已保存、可复用的扩充测试：包括一个 schema、一个固定的实体输入（搜索键或原始 JSON）、一种扩充策略、语言、response-schema / 严格结构化输出开关，以及任何附件。它还包含其黄金参考以及结果如何据此评分（一个可选的评判模型、一个嵌入模型和一个严格度阈值）。定义一次，即可在你想比较的每个模型上复用。

跨多个模型运行

当场景拥有已验证的参考结果后，即可针对某个提供商的活跃模型或视图中的每个活跃模型运行它。每个模型都会独立扩充——不进行融合——因此每个模型都能得到清晰、可并排对比的结果。进度会实时更新，并在运行结束时将每个成功的结果自动对照参考结果评分。

比较输出与成本

每次运行都会保存其结构化输出、成功状态、令牌数、处理时间以及计费总成本。展开任意一行即可查看 JSON 输出，或跳转到底层的扩充 record。

重新运行以刷新

在同一模型上重新运行场景会覆盖其之前的结果，因此表格始终反映最新一次运行。编辑场景配置后，较早的结果会被标记为过期，直到你重新运行它们。将每个模型的运行次数设为 2 或 3，则每个模型会被基准测试相应的次数——表格会保留成本、质量和速度的平均值，外加一致性区间（模型每次运行会有差异），所消耗的积分大约为该倍数。

解读结果

结果表专为对比而设计。顶部的汇总条会突出显示成功率以及成功 model 中最便宜和最快的 model。每一列——model、状态、策略、成本、token 和耗时——都可排序，因此一次点击即可按价格或延迟对 model 排序。可按 model 名称、状态或策略筛选以缩小视图范围，展开任意行即可阅读完整的结构化输出或打开底层的 enrichment record。

迭代：重试与禁用

基准测试是迭代式的。用复选框勾选行（按住 Shift 点击可选择一段范围），然后使用 ··· 菜单 对子集进行操作，而无需重新运行所有内容：

重试所选 / 失败 / 过期项 — 仅重新运行这些模型；结果就地覆盖。失败和过期项刻意覆盖整个结果集，因此已启用的筛选器绝不会隐藏重试目标。
禁用失败/所选项——关闭模型，使其不再出现在富集选择器中。适合用来剔除持续无法满足你的 schema 的模型，或输出未达到你标准的模型。

设置黄金参考值（benchmark 所需）

每个 scenario 都持有一份参考结果——即其 entity 的预期输出——只有当该参考结果通过验证后，scenario 才能进行基准测试。在此之前，它不会出现在任何运行菜单中。参考结果是评判质量的基准：衡量每个模型逐字段的接近程度，以及（对于电影演员阵容这类列表）它实际找出了多少正确项。你可以在 scenario 编辑器中直接设定它——以及用于对照评分的评判模型、嵌入模型和严格程度。

有两种构建方式。生成：附上包含正确值的文档（数据表、官方页面），开启网络搜索，并运行几个强大的模型——它们会从您的来源而非记忆中提取答案，因此结果基于事实，而非猜测。或者粘贴一份您已有的已知正确结果。无论哪种方式，您都可以审阅 JSON、修正任何内容，并将其标记为已验证——明确确认这就是标准答案。

由于参考基准已经过实证并经人工核对一次，它同时可作为可信的标尺，在每个模型和未来每次运行中重复使用。

在哪里可以找到

基准测试位于 模型管理 → 基准测试（组织所有者和管理员可用）。可在此创建和管理场景，或从以下四个位置之一启动运行：工具栏中的 基准测试模型 按钮（视图中所有活跃模型）、任意提供商行上的 基准测试模型 操作（该提供商的活跃模型）、在“模型”面板中选择模型时出现的 基准测试 下拉菜单（选定的模型），或任意单个模型行上的 基准测试模型 操作。