丰富化流程 - Entity Enricher 文档

丰富化流程

逐步演示 Entity Enricher 如何处理单个实体——从输入,经过分类、并行模型执行,到结构化输出。

流水线一览

输入
实体 JSON
+ Schema
分类
可选
类型检查
并行模型
Claude
财务
监管
通用
GPT-4
财务
监管
通用
验证
类型检查
自我纠正
输出
结构化
每个 model 的 JSON

第 1 步:配置充实

打开模式编辑器页面并设置您的扩充。工作流步骤引导您完成流水线各阶段:示例数据、模式、扩充和结果。

Schema 面板(左侧)

粘贴 JSON 样本以自动生成 schema,然后浏览交互式属性树。编辑属性、添加专长领域,并将字段标记为搜索键或保留字段。

丰富化面板(右侧)

配置扩充选项(策略、模型、语言、分类,以及响应 schema 和严格结构化输出开关),并填写实体搜索键(名称、网站、国家/地区等)以识别该实体。

结果面板

实时显示每个模型的进度和结果。使用多个模型时,会出现用于融合的“合并结果”按钮。

第 2 步:预检分类(可选)

如果您选择了分类模型,系统会先执行一次快速、低成本的 LLM 调用,以验证实体是否与 schema 类型匹配。这可以避免在实体不匹配时将 token 浪费在增强上。详见分类文档

非阻塞: 如果分类因任何原因失败,增强仍会正常进行。分类纯属参考性质 — 它为增强 prompt 添加上下文,但绝不会阻塞流水线。

第 3 步:策略执行

每个选定的 model 都会使用你选择的策略处理 entity。当选择了多个 model 时,它们会跨 provider 并行运行(Claude 和 GPT-4 同时运行),而同一 provider 的 model 则依次运行以遵守速率限制。

多专业领域示例(3 个领域)
1
按专业领域拆分模式
属性按其专业领域分组:财务字段、监管字段、通用字段。
2
并行运行 LLM 调用
每个专业领域都会获得只包含相关 schema 属性的专属提示词。所有调用同时运行。
3
逐步合并结果
每个专业领域完成后,其输出会合并到累积结果中。您可以实时看到部分结果。
4
应用保留逻辑
标记为“preserve”的字段的原始值会被恢复,以确保您的输入数据保持完整。

第 4 步:校验与自我修正

每个 LLM 响应都会实时根据你的 schema 进行校验。当输出与预期类型或约束不符时,系统会自动将错误发回给 LLM 进行修正。

哪些内容会被自动纠正:
字符串而非数字
"42.2" 变为 42.2
以数组形式索引的对象
{"0": "a", "1": "b"} 变为 ["a", "b"]
字符串空值
"null" 或 "None" 变为真正的 null
缺少必填字段
返回错误,由 LLM 补全

每次 LLM 调用最多可自动重试 5 次。每次重试都会包含具体的验证错误,以便 LLM 明确知道需要修正的内容。

在源头强制约束输出

两个可选开关会要求提供商在输出返回之前就对其加以约束,从而从一开始就减少需要纠正的响应。二者仅适用于支持它们的模型;其余一切仍会回退到上面的验证并重试流程。

响应 schema
通过 provider 的原生响应 schema 通道发送你的 schema,从而在服务器端强制校验 JSON。默认关闭——否则具备该能力的 model 会使用工具调用通道。
严格结构化输出
在所使用的结构化通道上将解码约束到 schema(不产生漂移)。默认开启;无法强制执行的 model 会静默忽略。

第 5 步:实时流式传输

Entity Enricher 使用服务器发送事件(SSE)实时流式传输进度。您无需等待所有模型完成——结果会随着每个专业领域或模型的完成而逐步显示。

事件时间线(示例:2 个模型、3 个专业领域)
0.0sstarted作业开始,2 个模型已排队
0.1sclassification_started预检查开始
0.8sclassification_completed实体确认为“匹配”(95%)
0.9smodel_startedClaude 和 GPT-4 并行启动
1.2sexpertise_completedClaude:财务部分完成,已流式传输部分结果
1.5sexpertise_completedClaude:通用部分完成,结果已更新
1.8sexpertise_completedClaude:合规检查完成,完整结果已就绪
1.9smodel_completedClaude 已完成,输出了完整的结构化结果
2.5smodel_completedGPT-4 已完成,输出完整结构化数据
2.5scompleted所有模型完成,流关闭

第 6 步:查看结果

每个模型都有其专属结果面板,展示结构化 JSON 输出、各专业领域的进度标记、token 用量、成本和处理时间。使用多专业领域策略时,专业领域标记会在各领域完成时实时更新。

每个模型你看到的内容:
  • 状态标记——等待中、运行中、成功、失败或部分完成
  • 专长领域徽章——彩色胶囊标签,显示各领域的进度(蓝色 = 运行中,绿色 = 完成,红色 = 失败)
  • 渐进式 JSON — 每个专业领域完成后更新输出
  • 指标 — 处理时间、token 数量、以美元计的费用
  • 进度日志 — 每个事件都有带时间戳的条目

处理部分成功

使用多专业领域策略时,部分专业领域可能失败,而其他专业领域成功。Entity Enricher 不会丢弃全部结果,而是返回成功专业领域合并后的输出,并标记为“部分完成”状态。随后你只需重试失败的专业领域,而无需重新运行整个富集。

示例:如果 3 个专长领域中有 2 个成功,你会得到覆盖成功领域的结构化输出。失败的专长领域可以重试,其结果将合并到现有输出中。

接下来会发生什么?

增强完成后,你的结果会保存到“记录”页面以供日后查阅。如果你使用了多个模型,可以使用多模型融合合并结果。