LLM 数据提取与 AI 数据丰富化功能 | Entity Enricher

功能

AI 驱动的实体扩充所需的一切——从 schema 生成到批量导出。

Schema 智能

AI 模式生成

粘贴任意 JSON。AI 生成带专长领域、搜索键和多语言字段的类型化 schema——最多 6 次自我纠正尝试。

自然语言编辑

通过输入“添加一个 parent_company 引用”来修改你的模式——AI 会应用该更改并建议 5 项改进。

可视化 schema 编辑器

支持拖放的属性树,具备专业领域分组、内联编辑、键盘导航、撤销/重做和自动保存功能。

8 条规则校验

类型正确性、$ref 完整性、专业领域分配——全部自动强制执行,让 LLM 在你看到结果之前完成自我纠正。

丰富化引擎

多专业领域策略

Schema 按领域(财务、监管、通用)拆分。每个专业领域作为并行 LLM 调用运行,以获得更深入、更专业的结果。

预检 classification

在扩充之前,由一个廉价的 LLM 对实体类型进行分类,防止实体与 schema 不匹配时产生幻觉。

自我纠错输出

模型验证在运行时捕获 LLM 的异常行为——带索引的字典转换为数组,字符串 null 转换为真正的 null,必填字段触发重试。

多语言富集

同时以 40 种语言富化。多语言字段封装为语言字典,包含各语言的值。

了解更多 →

语义 ID

稳定的组织范围 ID,根据对象的关键字段分配,使同一实体在多次充实、跨语言和跨时间去重——内置实体解析。

了解更多 →
多模型融合

并排对比

并行运行 2 个以上 LLM 模型。合并前逐字段比较结果。

冲突检测

类型感知比较:标量精确匹配,多语言按语言比较,数组按集合比较,对象递归比较。

智能解析

基于规则的合并(多数投票、中位数、并集)或 LLM 仲裁,附带推理、置信度级别和完整审计追踪。

批量与扩展

并行批次处理

同时丰富多达 100 个实体,支持按提供商限速和实时 SSE 进度。

带鉴权的 URL 抓取

使用 bearer、API 密钥或基本认证从任意 REST API 拉取实体。自动从响应包装中提取数组。

Excel 导出

三张工作表的工作簿:结果(每个实体一行)、摘要(元数据和成本)、冲突(解决详情)。

重试和取消

取消时优雅完成进行中的任务。仅重试失败的实体。开始前进行成本估算。

开发者与运维

REST API

带 OpenAPI 文档的编程式访问。组织密钥具备基于角色的权限,用于服务间集成。

成本分析

时间序列图表、提供商细分、各模型性能统计。跟踪所有操作的支出。

多租户

组织隔离,包含四种角色(管理员、所有者、编辑者、操作员)。按组织管理 LLM 提供商密钥并跟踪用量。