批处理 - Entity Enricher 文档

批处理

并行丰富多达 100 个实体,支持实时进度跟踪、自动多模型融合,以及导出为 JSON 或 Excel。

输入方式

批量丰富化支持两种提供实体数据的方式:

JSON 编辑器

直接粘贴或输入实体的 JSON 数组。编辑器提供语法高亮、校验标记,并将你的数据持久化保存在本地存储中,跨会话保留。

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

URL 抓取

从任意 REST API 端点获取实体。系统会自动从常见的响应包装中提取数组。

支持的身份验证方式:

Bearer TokenAPI 密钥请求头Basic Auth

如果 API 返回一个对象,系统会检查诸如 dataresultsitems 之类的键,以查找内嵌数组。

实体选择与验证

加载实体后,它们会以带验证状态的可选列表形式显示。你可以选择要包含在批次中的实体:

多选点击可选择单个 entity。按住 Shift 键点击可选择范围。Ctrl+A 全选,Ctrl+D 取消全选。
内联编辑点击搜索键字段(名称、国家/地区等),即可在 enrichment 前直接在列表中编辑它们。
验证每个实体都会根据 schema 的搜索键进行校验。至少需要填写一个搜索键。无效实体会显示警告,但仍可被选中。
选择性处理仅将选中的实体发送进行扩充。取消勾选您不想处理的实体。

配置

侧边栏与单个 enrichment 的配置选项相对应:

选项描述
Schema定义 enrichment 输出结构的目标 schema
策略单次通过、专家领域或多专业(每个领域并行调用)
模型针对每个实体运行的一个或多个 AI 模型。多个模型可启用自动融合。
语言用于多语言字段增强的语言(例如:英语 + 法语)
分类用于在增强前进行实体类型验证的可选快速模型
仲裁用于在 fusion 期间基于 LLM 解决冲突的模型。若未设置,则使用基于规则的合并。

成本估算

在启动批次前,确认对话框会显示成本估算和摘要。估算基于属性数量、模型定价以及所选实体和模型的数量计算得出。当 LLM 调用总数超过 100 时会显示警告。

实体
20
模型
2
调用总数
~40
预计成本
~$1.50

并行执行

所有选定的实体将同时处理。每个实体独立走完整个丰富流程:

单实体流水线

  1. 分类(可选)——由快速模型验证实体类型。在批处理模式下,不匹配不会暂停作业;上下文会照常传递。
  2. 多模型增强 — 每个所选模型并行增强实体,并按提供商进行速率限制。
  3. 自动融合(当 2 个及以上模型成功时)— 使用冲突检测与解决自动合并结果。

速率限制

全局速率限制器可防止 AI 提供商过载。所有实体共享相同的每提供商并发限制(通常每个提供商 5 个并发调用)。在 20 个实体和 2 个模型的情况下,每个提供商最多同时运行 5 个调用——其余的等待可用资源。这确保了可靠执行,而不会触及 API 速率限制。

实时进度

结果面板使用 Server-Sent Events (SSE) 实时显示进度。每个 entity 都有一张可折叠的卡片,会实时更新:

待处理

等待开始处理

运行中

正在扩充,专业领域进度徽章会显示各领域的完成情况

已完成

所有模型均成功完成。卡片自动折叠。

部分

部分模型或专业领域处理失败。可获取部分结果。

失败

该实体的所有模型均失败。已显示错误详情。

取消与错误处理

你可以随时取消正在运行的 batch。取消是协作式的——已在处理中的 entity 会完成其当前的 LLM 调用,但不会启动新的调用。已完成 entity 的部分结果会被保留。

错误恢复能力

批处理设计为具有弹性。单个失败不会中止整个批次:

  • 如果某个 entity 的 classification 失败,enrichment 将在没有上下文的情况下继续进行
  • 如果某个 model 失败,该 entity 的其他 model 会继续处理
  • 如果某个 entity 的所有 model 都失败,则将其标记为失败,其他 entity 继续处理
  • 返回“未找到”错误的模型会被自动停用

导出格式

批次完成后,可将结果导出为三种格式。对于每个实体,如果有融合结果则优先使用;否则使用最佳模型的结果。

JSON 文件

将完整结果下载为结构化 JSON 文件,包含所有实体数据、模型输出和融合元数据。

剪贴板

将 JSON 结果直接复制到剪贴板,以便粘贴到其他工具或脚本中。

Excel

一个三工作表工作簿:Results(每个实体一行,属性已扁平化)、Summary(批次元数据、模型、成本)和 Conflicts(逐实体冲突详情及解决推理)。

限制

限制
每个批次的最大实体数100
最大实体数据大小50,000 个字符
最大提示词长度100,000 个字符
URL 抓取超时30 秒

后续步骤