批处理 - Entity Enricher 文档

批处理

并行丰富多达 100 个实体，支持实时进度跟踪、自动多模型融合，以及导出为 JSON 或 Excel。

输入方式

批量丰富化支持两种提供实体数据的方式：

JSON 编辑器

直接粘贴或输入实体的 JSON 数组。编辑器提供语法高亮、校验标记，并将你的数据持久化保存在本地存储中，跨会话保留。

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

URL 抓取

从任意 REST API 端点获取实体。系统会自动从常见的响应包装中提取数组。

支持的身份验证方式：

无Bearer TokenAPI 密钥请求头Basic Auth

如果 API 返回一个对象，系统会检查诸如 data、results、items 之类的键，以查找内嵌数组。

实体选择与验证

加载实体后，它们会以带验证状态的可选列表形式显示。你可以选择要包含在批次中的实体：

多选— 点击可选择单个 entity。按住 Shift 键点击可选择范围。Ctrl+A 全选，Ctrl+D 取消全选。

内联编辑— 点击搜索键字段（名称、国家/地区等），即可在 enrichment 前直接在列表中编辑它们。

验证— 每个实体都会根据 schema 的搜索键进行校验。至少需要填写一个搜索键。无效实体会显示警告，但仍可被选中。

选择性处理— 仅将选中的实体发送进行扩充。取消勾选您不想处理的实体。

配置

侧边栏与单个 enrichment 的配置选项相对应：

选项	描述
Schema	定义 enrichment 输出结构的目标 schema
策略	单次通过、专家领域或多专业（每个领域并行调用）
模型	针对每个实体运行的一个或多个 AI 模型。多个模型可启用自动融合。
语言	用于多语言字段增强的语言（例如：英语 + 法语）
分类	用于在增强前进行实体类型验证的可选快速模型
仲裁	用于在 fusion 期间基于 LLM 解决冲突的模型。若未设置，则使用基于规则的合并。

成本估算

在启动批次前，确认对话框会显示成本估算和摘要。估算基于属性数量、模型定价以及所选实体和模型的数量计算得出。当 LLM 调用总数超过 100 时会显示警告。

实体

模型

调用总数

~40

预计成本

~$1.50

并行执行

所有选定的实体将同时处理。每个实体独立走完整个丰富流程：

单实体流水线

分类（可选）——由快速模型验证实体类型。在批处理模式下，不匹配不会暂停作业；上下文会照常传递。
多模型增强 — 每个所选模型并行增强实体，并按提供商进行速率限制。
自动融合（当 2 个及以上模型成功时）— 使用冲突检测与解决自动合并结果。

速率限制

全局速率限制器可防止 AI 提供商过载。所有实体共享相同的每提供商并发限制（通常每个提供商 5 个并发调用）。在 20 个实体和 2 个模型的情况下，每个提供商最多同时运行 5 个调用——其余的等待可用资源。这确保了可靠执行，而不会触及 API 速率限制。

实时进度

结果面板使用 Server-Sent Events (SSE) 实时显示进度。每个 entity 都有一张可折叠的卡片，会实时更新：

待处理

等待开始处理

运行中

正在扩充，专业领域进度徽章会显示各领域的完成情况

已完成

所有模型均成功完成。卡片自动折叠。

部分

部分模型或专业领域处理失败。可获取部分结果。

失败

该实体的所有模型均失败。已显示错误详情。

取消与错误处理

你可以随时取消正在运行的 batch。取消是协作式的——已在处理中的 entity 会完成其当前的 LLM 调用，但不会启动新的调用。已完成 entity 的部分结果会被保留。

错误恢复能力

批处理设计为具有弹性。单个失败不会中止整个批次：

如果某个 entity 的 classification 失败，enrichment 将在没有上下文的情况下继续进行
如果某个 model 失败，该 entity 的其他 model 会继续处理
如果某个 entity 的所有 model 都失败，则将其标记为失败，其他 entity 继续处理
返回“未找到”错误的模型会被自动停用

导出格式

批次完成后，可将结果导出为三种格式。对于每个实体，如果有融合结果则优先使用；否则使用最佳模型的结果。

JSON 文件

将完整结果下载为结构化 JSON 文件，包含所有实体数据、模型输出和融合元数据。

剪贴板

将 JSON 结果直接复制到剪贴板，以便粘贴到其他工具或脚本中。

Excel

一个三工作表工作簿：Results（每个实体一行，属性已扁平化）、Summary（批次元数据、模型、成本）和 Conflicts（逐实体冲突详情及解决推理）。

限制

限制	值
每个批次的最大实体数	100
最大实体数据大小	50,000 个字符
最大提示词长度	100,000 个字符
URL 抓取超时	30 秒

后续步骤

多模型融合

如何检测和解决模型之间的冲突。

富集策略

比较单遍与多专长领域策略。

API 参考

通过 REST API 以编程方式运行批量富化。