多模型增强与融合 - Entity Enricher

多模型增强与融合

在同一实体上并行运行多个 AI 模型,检测它们输出之间的字段级冲突,并将结果融合为单条高置信度记录。这是 Entity Enricher 的核心差异化优势:您不再依赖单个 LLM,而是跨提供商交叉验证,以实现最高的数据准确性。

多模型丰富化的工作原理

输入

实体数据 + Schema

Claude

独立丰富

GPT-4

独立丰富

Gemini

独立丰富

冲突检测

逐字段比较所有模型的输出

选项 A

基于规则的合并

多数投票、中位数、并集

选项 B

LLM 仲裁

AI 通过推理进行仲裁

融合输出

带审计跟踪的单条高置信度记录

并行模型执行

当你为某个富集任务选择多个模型时,Entity Enricher 会将相同的实体数据和架构同时发送给每个模型。每个模型都独立运行,互不知晓其他模型的输出,从而确保数据点真正相互独立。

该系统支持任意组合的 provider —— Anthropic Claude、OpenAI GPT-4、Google Gemini、Mistral,或通过 Ollama 自托管的 model。按 provider 的速率限制可确保你在最大化吞吐量的同时,仍处于每个 provider 的 API 限制之内。

实时 SSE 流式传输会在每个模型完成时显示进度,在使用多专业领域策略时还包括每个专业领域的进度。你可以在所有模型完成之前查看部分结果。

类型感知的冲突检测

所有模型完成后,冲突检测引擎会逐字段比较它们的输出。该比较是类型感知的——不同的字段类型使用不同的比较规则:

字段类型比较方法一致规则
字符串 / 标量精确匹配(归一化后)经大小写/空白归一化后所有值必须相等
数字精确数值匹配所有值必须是相同的数字
布尔值精确匹配所有模型必须对 true/false 达成一致
多语言按语言对比各语言键独立比较
数组集合比较(忽略顺序)相同项,与顺序无关
对象逐属性递归所有嵌套字段必须匹配
Null 值null == 缺失Null 与缺失被视为等价

冲突解决方法

基于规则的合并

使用投票规则进行确定性解决。快速、可预测,且无需额外的 LLM 调用。

  • 字符串:多数表决。票数相同时以最长的值决胜(信息越详细越好)。
  • 数字: 取中位数。对任何单一模型的异常值都具有鲁棒性。
  • 布尔值:多数投票。平局时 True 获胜(保守策略)。
  • 数组:所有项的并集。保留所有信息。
  • 对象: 对每个字段递归应用上述规则。
  • 空值: 优先选择非空值。缺失数据比任何值都更糟糕。

LLM 仲裁

仲裁模型结合实体上下文和字段描述审查每处冲突,然后做出结构化决策。

  • 推理说明: 每个决策都包含用自然语言解释为何选择了某个值。
  • 置信度:每项决策都有高、中或低的置信度评分。
  • 选定值:仲裁器会从可用的模型输出中进行选择,或合成出更优的答案。
  • 回退:如果仲裁失败,系统会自动回退到基于规则的合并。

完整审计记录

每条融合后的 record 都包含带完整溯源信息的仲裁元数据:

此元数据与 fusion 后的 record 一起存储,并导出到 Excel 冲突表中,因此适用于注重决策来源的合规工作流。

多模型富集最能发挥作用的场景

高风险数据

财务尽职调查、药品安全概况以及合规筛查,这些场景中的错误都会带来实质性后果。

存在争议的事实

各来源信息存在冲突的实体——不同来源报告的融资金额、成立日期或监管状态各不相同。

覆盖缺口

当没有任何单一模型拥有完整知识时。不同的 LLM 基于不同的数据训练,因此运行多个模型可以填补空白。

置信度要求

当下游使用方需要为每个数据点获取置信度分数和来源信息,而不仅仅是最终值时。

试用多模型增强

选择 2 个以上模型并行运行,看 fusion 如何解决冲突。无需按月订阅——使用你自己的 API 密钥,按 token 付费。

免费开始使用