多模型融合 - Entity Enricher 文档

多模型融合

当你在多个 AI 模型上运行同一次富集时，Entity Enricher 可以将结果融合为单一的高置信度输出。融合会检测各模型输出之间的冲突，并使用确定性规则或由 LLM 驱动的仲裁来解决它们。

融合流程

模型输出

Claude 结果

GPT-4 结果

Gemini 结果

冲突检测

在所有模型间
比较每个字段

解析

基于规则的合并

或

LLM 仲裁

合并结果

单一输出，附带
冲突审计跟踪

第 1 步：冲突检测

冲突检测器会比较所有模型输出中的每个字段。所有模型一致的字段将原样通过。模型存在分歧的字段会被标记为需要解决的冲突。

按字段类型的比较规则

类型	比较方式	一致意味着
标量	标准化精确匹配（去除首尾空格、转小写、四舍五入）	归一化后所有值均相等
多语言	按语言对比	各语言键跨模型匹配
数组	集合比较（与顺序无关）	相同项，与顺序无关
对象	逐属性递归	所有嵌套属性均匹配
Null	Null 等同于缺失	视为等同

示例：用 2 个模型扩充“Sanofi”

Claude 输出

revenue: 42.2
gmp_status: true
description: “Sanofi is a global...”

GPT-4 输出

revenue: 44.1
gmp_status: true
description: “Sanofi SA is a...”

结果： gmp_status = agreed | revenue = conflict (42.2 vs 44.1) | description = conflict (different text)

第 2 步：冲突解决

冲突将使用两种方法之一解决，具体取决于你是否在侧边栏中选择了仲裁模型。

选项 A

基于规则的合并

根据每个字段的数据类型应用确定性规则。无需额外的 LLM 调用——解决过程即时且免费。

字段类型	规则	理由
字符串	多数投票；平局时取最长值	通常细节越多越好
数字	中位数值	对异常值稳健
布尔值	多数；平局时取 true	保守默认值
多语言	按语言多数投票	各语言独立解析
数组	所有项的并集	保留所有信息
对象	逐字段递归	将规则应用于嵌套字段
Null 与值	优先非空值	数据缺失比任何值都更糟

决胜规则：票数相同时，价格更高的 model 所提供的值胜出（作为能力的代理指标），其次按 model 名称的字母顺序排序。

选项 B

LLM 仲裁

当你在侧边栏选择仲裁模型时，冲突会被发送给 LLM 进行智能解决。仲裁器会接收实体上下文、架构字段描述以及所有冲突值，然后做出有依据的决策。

仲裁器返回的内容

选定的值它认为最准确的值

源模型所选值来自哪个模型

推理为何选择该值而非其他候选值

置信度对该决策的置信度（高、中、低）

回退：如果仲裁模型失败（超时、错误），系统会自动回退到基于规则的合并，从而确保你始终能得到结果。

第 3 步：合并后的结果

冲突解决后，系统会构建单个合并结果，并将其作为“仲裁”记录存储在数据库中。每个合并结果都包含审计追踪，以便你追溯每个冲突的解决方式。

审计追踪（arbitration 元数据）

每条合并结果都包含记录融合过程的元数据：

“method”: “rule_based” | “llm”

“source_record_ids”: [“uuid-1”, “uuid-2”]

“total_fields”: 23

“agreed_fields”: 18

“conflicted_fields”: 5

“decisions”: [{ path, chosen_value, rule_used, ... }]

你在界面中看到的内容

融合完成后，结果面板中的“合并”选项卡会显示：

摘要标题栏

显示解决方法（基于规则或 LLM），以及类似“18 个一致 / 5 个已解决 / 共 23 个字段”的计数。

合并后的 JSON

将一致的值和已解决的冲突合并到单个 JSON 文档中的完整结构化输出。

冲突报告

为每个冲突提供可展开的卡片，显示：字段路径、解决方式标记（多数投票、中位数、并集等）、所有 model 的取值并高亮所选值，以及在使用 LLM arbitration 时的推理文本。

批处理中的自动融合

在批量增强中，当您选择两个或更多模型时，融合会自动进行。您无需手动点击“合并结果”——一旦某个实体的所有模型都完成，融合就会运行，合并后的结果会与各个模型的输出一起显示。

流式 fusion：在单 entity 和 batch enrichment 期间，fusion 进度都会通过 Server-Sent Events 流式传输。您可以实时看到 fusion_started、conflicts_detected 和 fusion_completed 事件。