LLM 数据提取与 AI 数据丰富化功能 | Entity Enricher

功能

AI 驱动的实体扩充所需的一切——从 schema 生成到批量导出。

Schema 智能

粘贴任意 JSON。AI 生成带专长领域、搜索键和多语言字段的类型化 schema——最多 6 次自我纠正尝试。

通过输入“添加一个 parent_company 引用”来修改你的模式——AI 会应用该更改并建议 5 项改进。

支持拖放的属性树，具备专业领域分组、内联编辑、键盘导航、撤销/重做和自动保存功能。

类型正确性、$ref 完整性、专业领域分配——全部自动强制执行，让 LLM 在你看到结果之前完成自我纠正。

丰富化引擎

Schema 按领域（财务、监管、通用）拆分。每个专业领域作为并行 LLM 调用运行，以获得更深入、更专业的结果。

在扩充之前，由一个廉价的 LLM 对实体类型进行分类，防止实体与 schema 不匹配时产生幻觉。

模型验证在运行时捕获 LLM 的异常行为——带索引的字典转换为数组，字符串 null 转换为真正的 null，必填字段触发重试。

同时以 40 种语言富化。多语言字段封装为语言字典，包含各语言的值。

稳定的组织范围 ID，根据对象的关键字段分配，使同一实体在多次充实、跨语言和跨时间去重——内置实体解析。

多模型融合

并行运行 2 个以上 LLM 模型。合并前逐字段比较结果。

类型感知比较：标量精确匹配，多语言按语言比较，数组按集合比较，对象递归比较。

基于规则的合并（多数投票、中位数、并集）或 LLM 仲裁，附带推理、置信度级别和完整审计追踪。

批量与扩展

同时丰富多达 100 个实体，支持按提供商限速和实时 SSE 进度。

使用 bearer、API 密钥或基本认证从任意 REST API 拉取实体。自动从响应包装中提取数组。

三张工作表的工作簿：结果（每个实体一行）、摘要（元数据和成本）、冲突（解决详情）。

取消时优雅完成进行中的任务。仅重试失败的实体。开始前进行成本估算。

开发者与运维

带 OpenAPI 文档的编程式访问。组织密钥具备基于角色的权限，用于服务间集成。

时间序列图表、提供商细分、各模型性能统计。跟踪所有操作的支出。

组织隔离，包含四种角色（管理员、所有者、编辑者、操作员）。按组织管理 LLM 提供商密钥并跟踪用量。