丰富化流程 - Entity Enricher 文档

丰富化流程

逐步演示 Entity Enricher 如何处理单个实体——从输入，经过分类、并行模型执行，到结构化输出。

流水线一览

输入

实体 JSON
+ Schema

分类

可选
类型检查

并行模型

Claude

财务
监管
通用

GPT-4

财务
监管
通用

验证

类型检查
自我纠正

输出

结构化
每个 model 的 JSON

第 1 步：配置充实

打开模式编辑器页面并设置您的扩充。工作流步骤引导您完成流水线各阶段：示例数据、模式、扩充和结果。

Schema 面板（左侧）

粘贴 JSON 样本以自动生成 schema，然后浏览交互式属性树。编辑属性、添加专长领域，并将字段标记为搜索键或保留字段。

丰富化面板（右侧）

配置扩充选项（策略、模型、语言、分类，以及响应 schema 和严格结构化输出开关），并填写实体搜索键（名称、网站、国家/地区等）以识别该实体。

结果面板

实时显示每个模型的进度和结果。使用多个模型时，会出现用于融合的“合并结果”按钮。

第 2 步：预检分类（可选）

如果您选择了分类模型，系统会先执行一次快速、低成本的 LLM 调用，以验证实体是否与 schema 类型匹配。这可以避免在实体不匹配时将 token 浪费在增强上。详见分类文档。

非阻塞： 如果分类因任何原因失败，增强仍会正常进行。分类纯属参考性质 — 它为增强 prompt 添加上下文，但绝不会阻塞流水线。

第 3 步：策略执行

每个选定的 model 都会使用你选择的策略处理 entity。当选择了多个 model 时,它们会跨 provider 并行运行(Claude 和 GPT-4 同时运行),而同一 provider 的 model 则依次运行以遵守速率限制。

多专业领域示例（3 个领域）

按专业领域拆分模式

属性按其专业领域分组：财务字段、监管字段、通用字段。

并行运行 LLM 调用

每个专业领域都会获得只包含相关 schema 属性的专属提示词。所有调用同时运行。

逐步合并结果

每个专业领域完成后，其输出会合并到累积结果中。您可以实时看到部分结果。

应用保留逻辑

标记为“preserve”的字段的原始值会被恢复，以确保您的输入数据保持完整。

第 4 步：校验与自我修正

每个 LLM 响应都会实时根据你的 schema 进行校验。当输出与预期类型或约束不符时，系统会自动将错误发回给 LLM 进行修正。

哪些内容会被自动纠正：

字符串而非数字

"42.2" 变为 42.2

以数组形式索引的对象

{"0": "a", "1": "b"} 变为 ["a", "b"]

字符串空值

"null" 或 "None" 变为真正的 null

缺少必填字段

返回错误，由 LLM 补全

每次 LLM 调用最多可自动重试 5 次。每次重试都会包含具体的验证错误，以便 LLM 明确知道需要修正的内容。

在源头强制约束输出

两个可选开关会要求提供商在输出返回之前就对其加以约束，从而从一开始就减少需要纠正的响应。二者仅适用于支持它们的模型；其余一切仍会回退到上面的验证并重试流程。

响应 schema

通过 provider 的原生响应 schema 通道发送你的 schema，从而在服务器端强制校验 JSON。默认关闭——否则具备该能力的 model 会使用工具调用通道。

严格结构化输出

在所使用的结构化通道上将解码约束到 schema（不产生漂移）。默认开启；无法强制执行的 model 会静默忽略。

第 5 步：实时流式传输

Entity Enricher 使用服务器发送事件（SSE）实时流式传输进度。您无需等待所有模型完成——结果会随着每个专业领域或模型的完成而逐步显示。

事件时间线（示例：2 个模型、3 个专业领域）

0.0sstarted作业开始，2 个模型已排队

0.1sclassification_started预检查开始

0.8sclassification_completed实体确认为“匹配”（95%）

0.9smodel_startedClaude 和 GPT-4 并行启动

1.2sexpertise_completedClaude：财务部分完成，已流式传输部分结果

1.5sexpertise_completedClaude：通用部分完成，结果已更新

1.8sexpertise_completedClaude：合规检查完成，完整结果已就绪

1.9smodel_completedClaude 已完成，输出了完整的结构化结果

2.5smodel_completedGPT-4 已完成，输出完整结构化数据

2.5scompleted所有模型完成，流关闭

第 6 步：查看结果

每个模型都有其专属结果面板，展示结构化 JSON 输出、各专业领域的进度标记、token 用量、成本和处理时间。使用多专业领域策略时，专业领域标记会在各领域完成时实时更新。

每个模型你看到的内容：

状态标记——等待中、运行中、成功、失败或部分完成
专长领域徽章——彩色胶囊标签，显示各领域的进度（蓝色 = 运行中，绿色 = 完成，红色 = 失败）
渐进式 JSON — 每个专业领域完成后更新输出
指标 — 处理时间、token 数量、以美元计的费用
进度日志 — 每个事件都有带时间戳的条目

处理部分成功

使用多专业领域策略时，部分专业领域可能失败，而其他专业领域成功。Entity Enricher 不会丢弃全部结果，而是返回成功专业领域合并后的输出，并标记为“部分完成”状态。随后你只需重试失败的专业领域，而无需重新运行整个富集。

示例：如果 3 个专长领域中有 2 个成功，你会得到覆盖成功领域的结构化输出。失败的专长领域可以重试，其结果将合并到现有输出中。

接下来会发生什么？

增强完成后，你的结果会保存到“记录”页面以供日后查阅。如果你使用了多个模型，可以使用多模型融合合并结果。