模型基准测试 - Entity Enricher 文档

模型基准测试

基准测试场景让您可以在真实、可重复的丰富化任务上对 LLM 模型进行同类比较,捕获每个模型的输出和总成本,以便为任务选择合适的模型。

为何进行基准测试?

不同模型在准确性、结构化输出可靠性和价格上差异巨大。与其靠猜测,基准测试场景会将同一个模式和实体同时交由多个模型处理,并记录每个模型的产出及其成本。你可以基于证据进行比较,然后锁定满足你质量标准的最便宜模型。

工作原理

1
定义一个 scenario

基准场景是一个已保存、可复用的扩充测试:包括一个 schema、一个固定的实体输入(搜索键或原始 JSON)、一种扩充策略、语言、response-schema / 严格结构化输出开关,以及任何附件。它还包含其黄金参考以及结果如何据此评分(一个可选的评判模型、一个嵌入模型和一个严格度阈值)。定义一次,即可在你想比较的每个模型上复用。

2
跨多个模型运行

当场景拥有已验证的参考结果后,即可针对某个提供商的活跃模型视图中的每个活跃模型运行它。每个模型都会独立扩充——不进行融合——因此每个模型都能得到清晰、可并排对比的结果。进度会实时更新,并在运行结束时将每个成功的结果自动对照参考结果评分

3
比较输出与成本

每次运行都会保存其结构化输出、成功状态、令牌数、处理时间以及计费总成本。展开任意一行即可查看 JSON 输出,或跳转到底层的扩充 record。

4
重新运行以刷新

在同一模型上重新运行场景会覆盖其之前的结果,因此表格始终反映最新一次运行。编辑场景配置后,较早的结果会被标记为过期,直到你重新运行它们。将每个模型的运行次数设为 2 或 3,则每个模型会被基准测试相应的次数——表格会保留成本、质量和速度的平均值,外加一致性区间(模型每次运行会有差异),所消耗的积分大约为该倍数。

解读结果

结果表专为对比而设计。顶部的汇总条会突出显示成功率以及成功 model 中最便宜最快的 model。每一列——model、状态、策略、成本、token 和耗时——都可排序,因此一次点击即可按价格或延迟对 model 排序。可按 model 名称、状态或策略筛选以缩小视图范围,展开任意行即可阅读完整的结构化输出或打开底层的 enrichment record。

迭代:重试与禁用

基准测试是迭代式的。用复选框勾选行(按住 Shift 点击可选择一段范围),然后使用 ··· 菜单 对子集进行操作,而无需重新运行所有内容:

设置黄金参考值(benchmark 所需)

每个 scenario 都持有一份参考结果——即其 entity 的预期输出——只有当该参考结果通过验证后,scenario 才能进行基准测试。在此之前,它不会出现在任何运行菜单中。参考结果是评判质量的基准:衡量每个模型逐字段的接近程度,以及(对于电影演员阵容这类列表)它实际找出了多少正确项。你可以在 scenario 编辑器中直接设定它——以及用于对照评分的评判模型、嵌入模型和严格程度。

有两种构建方式。生成:附上包含正确值的文档(数据表、官方页面),开启网络搜索,并运行几个强大的模型——它们会从您的来源而非记忆中提取答案,因此结果基于事实,而非猜测。或者粘贴一份您已有的已知正确结果。无论哪种方式,您都可以审阅 JSON、修正任何内容,并将其标记为已验证——明确确认这就是标准答案。

由于参考基准已经过实证并经人工核对一次,它同时可作为可信的标尺,在每个模型和未来每次运行中重复使用。

在哪里可以找到

基准测试位于 模型管理 → 基准测试(组织所有者和管理员可用)。可在此创建和管理场景,或从以下四个位置之一启动运行:工具栏中的 基准测试模型 按钮(视图中所有活跃模型)、任意提供商行上的 基准测试模型 操作(该提供商的活跃模型)、在“模型”面板中选择模型时出现的 基准测试 下拉菜单(选定的模型),或任意单个模型行上的 基准测试模型 操作。

成本与计费

基准测试运行会进行真实的 LLM 调用,并根据实际用量扣除积分,与普通丰富化完全一样。确认对话框会在产生任何支出前告知您即将运行多少个模型。每个保存的结果都会显示其计费成本,因此基准测试还可兼作成本比较工具。