实体丰富是指获取一条稀疏的数据记录——公司名称、药物化合物标识符、房产地址——并用来自外部来源的结构化详细信息对其进行增强的过程。本指南解释了实体丰富的工作原理、为何 AI 驱动的方法正在取代传统方法,以及多模型丰富如何产生更准确的结果。
“实体”是指任何你想深入了解的现实世界事物:一家公司、一个人、一种药物化合物、一个法律主体、一篇研究论文、一处房产。“增补”是指填补空白——利用你已知的信息(实体标识符)来发现你未知的内容(其属性、关系和元数据)。
例如,仅给出名称“Novartis”,enrichment 过程可能返回:总部所在地(瑞士巴塞尔)、员工人数(105,000+)、治疗领域(肿瘤、心血管、免疫)、近期收购、临床试验管线以及各司法辖区的监管备案。
关键挑战不仅在于找到这些信息,还在于将其结构化。增强系统会生成带类型、经过校验的输出,供下游应用以编程方式使用——不是自由文本摘要,而是具有特定字段、类型和关系的结构化 JSON。
针对专有数据集(Apollo、ZoomInfo、Clearbit)的数据库查询。你查询一个预先整理好的数据库,并获取 provider 提供的相应字段。
大语言模型利用其训练数据和推理能力对实体进行研究,返回符合您 schema 的结构化输出。
AI 驱动的增强并不能在所有场景中取代数据库查询。当你需要经过验证的电子邮件地址或电话号码时,精心整理的数据库仍是合适的工具。但当你需要自定义字段、非标准实体类型或交叉验证的结构化数据时,AI 驱动的增强则表现出色。许多团队会同时使用这两种方法。
单模型增强有一个根本局限:您在每个数据点上都只信任一个 AI 的知识和推理。不同的 LLM 使用不同的数据训练,具有不同的优势,也会犯不同的错误。Claude 答对的事实,GPT-4 可能会遗漏,反之亦然。
多模型增强通过在同一实体和 schema 上并行运行多个模型来解决这一问题,然后逐字段比较它们的输出。当所有模型对某个值达成一致时,置信度较高。当它们不一致时,系统会检测到冲突,并使用确定性规则(多数投票、数值取中位数)或带结构化推理的 LLM 仲裁来解决。
这种被 Entity Enricher 称为多 model fusion 的方法,产生的结果比任何单个 model 都明显更准确。它还提供审计追踪——每条 fusion 后的 record 都记录了哪些 model 达成一致、哪些存在分歧,以及冲突是如何被 arbitration 解决的。
一个现代的 AI 驱动扩充流水线由四个阶段组成:
实体丰富适用于任何需要获取现实世界实体结构化信息的领域。以下是一些最常见的应用:
Entity Enricher 专为模式驱动的多模型增强而构建。传统平台只能从专有数据库提供固定字段集,而 Entity Enricher 与之不同,让您能够定义所需的精确输出结构、运行多个 AI 模型进行交叉验证,并通过冲突解决来融合结果。
使用带类型的属性、嵌套对象、数组和 $ref 引用定义任意输出结构。
同时运行 2 个以上 LLM。检测字段级冲突。通过规则或 LLM 仲裁解决。
粘贴 JSON,即可获得带专长领域和搜索键的经过校验的 schema。可自我纠正。
并行丰富多达 100 个实体,支持实时进度和 Excel/JSON 导出。
Schema 按领域拆分,进行专业的并行 LLM 调用,产生更深入的结果。
在扩充前验证实体类型,以防止在不匹配的实体上产生幻觉。
定义您的 schema,选择您的模型,几分钟内即可获得结构化的实体数据。无需订阅,没有固定字段——只提供您需要的数据,并由多个 AI 模型验证。
免费开始使用