富集策略 - Entity Enricher 文档

富集策略

Entity Enricher 提供两种增强策略,用于控制如何编排 LLM 调用。选择正确的策略会影响准确性、速度和成本。

流水线图

从最简单到最强大的配置。每一层都建立在前一层之上。

简单

单次通过 — 1 个模型

一个模型,一次调用。整个模式在单个提示词中发送。快速且低成本——非常适合简单模式或快速迭代。

实体

Aspirin

任意实体:公司、药物、法律案件、研究论文……

Anthropic

使用您自己的 API 密钥调用任意 LLM 提供商。

Anthropic完整模式

一次调用完成完整模式——验证失败时自动重试。

丰富后的结果

Aspirin

多模型

单次通过 — 3 个模型

策略相同,但并行运行多个模型。结果逐字段对比并仲裁,生成单一的高置信度输出。

实体

Aspirin

任意实体:公司、药物、法律案件、研究论文……

预检 classification

匹配——Pharmaceutical Compound

在浪费 LLM 积分之前捕获类型不匹配。

Anthropic
OpenAI
Google Gemini

使用你自己的 API 密钥——适用于任何 LLM 提供商。

Anthropic完整模式
OpenAI完整模式
Gemini完整模式

一次调用完成完整模式——验证失败时自动重试。

最终富集结果

Aspirin

已仲裁

经过推理的字段级冲突解决生成最终可信结果。

高级

多专业领域 — 3 个模型

Schema 按 expertise domain 拆分。每个 model 会为每个领域接收有针对性的子 prompt。结果先按 model 深度合并,再在各 model 之间进行 arbitration。为复杂的多领域 schema 提供最高的准确度。

实体

Aspirin

任意实体:公司、药物、法律案件、研究论文……

预检 classification

匹配——Pharmaceutical Compound

在浪费 LLM 积分之前捕获类型不匹配。

Anthropic
OpenAI
Google Gemini

使用你自己的 API 密钥——适用于任何 LLM 提供商。

Anthropic
药理学LLM 提示词
监管LLM 提示词
OpenAI
药理学LLM 提示词
监管LLM 提示词
Gemini
药理学LLM 提示词
监管LLM 提示词

Schema 按领域拆分——自我纠正的提示词在验证失败时重试。

Anthropic 条结果
OpenAI 条结果
Gemini 条结果

按模型对专长领域响应进行深度合并。

最终富集结果

Aspirin

已仲裁

经过推理的字段级冲突解决生成最终可信结果。

详细对比

方面单次通过多专业领域
LLM 调用每个模型 1 个每个模型 N 次(每个专业领域 1 次)
Schema 已发送一个提示词完成完整模式按专业领域划分的子集
执行顺序执行(单次调用)并行(所有 expertise domain 同时运行)
准确性适合简单的 schema更高——聚焦的 prompt 能带来更好的结果
速度小型 schema 更快对于大型 schema,并行执行可能更快
成本更低(单次调用开销)更高(多次调用,每次调用都有额外开销)
流式传输全有或全无结果渐进式 — 每个专业领域完成后即刻流式返回结果
部分成功否——整个调用要么全部成功,要么全部失败是——成功的 expertise 会被保留,失败的可以重试

何时使用各个策略

何时使用单次处理:

  • 您的 schema 属性少于 15–20 个
  • 所有属性都属于同一个领域(例如全部为财务数据)
  • 您希望获得最快、最便宜的结果,而准确性不那么重要
  • 你正在测试新的 schema 并快速迭代

何时使用多 expertise domain:

  • 您的 schema 横跨多个 expertise domain(医药、金融、地理等)
  • 你有一个包含 20 多个属性的复杂 schema
  • 准确性至关重要,且你想要专注、专门的提示词
  • 您希望在每个域名完成时获得实时进度
  • 您需要部分成功处理机制——仅重试失败的部分

多专业领域的详细工作原理

多专业领域策略对每个模型遵循四步流程:

1
按专业领域对属性分组

Schema 会被递归遍历。每个带有 expertise domain 标签的属性会与共享同一领域的其他属性归为一组。例如,revenuemarket_cap 归入“financial”组,而 gmp_status 归入“regulatory”组。

2
创建聚焦的子架构

每个专业领域分组都会成为一个仅包含其属性的最小子 schema。这意味着 LLM 收到的提示词更小、更聚焦,只需填写它所专精的字段。

3
并行运行

所有专业领域调用并发运行。含 5 个专业领域的 schema 将同时发起 5 个 LLM 调用。每个调用完成后,其结果都会深度合并到累积输出中,并实时流式传输到界面。

4
处理部分失败

如果部分专业领域失败,系统会返回成功领域的合并输出,并标记为“部分完成”状态。你可以仅重试失败的专业领域,新结果将合并到现有输出中,而不会重复已成功的工作。

与多 model enrichment 结合使用

两种策略都可以与 多模型增强 结合使用。当你选择多个模型时,每个模型都会独立运行所选策略。随后可以使用 多模型融合 将结果合并,生成单一的高置信度输出。

示例:对含有 4 个专长领域的 schema 使用 3 个模型进行多专长富集,总共会发起 12 次 LLM 调用(3 个模型 × 4 个专长领域)。来自不同提供商的模型并行运行,而来自同一提供商的模型会排队,以遵守速率限制。