使用 AI 从示例数据生成结构化 JSON 模式,并进行自动自我校正和智能后处理。
Schema 生成会将原始实体数据转换为带类型和注释的 JSON Schema,精确定义在数据丰富过程中要提取哪些信息。您无需手动编写 Schema,只需粘贴示例 JSON,让 AI 分析结构、推断类型、分配专业领域并提出改进建议。
{"en": "...", "fr": "..."})会被折叠为单个值,属性数量决定允许多少个专长领域。自我修正循环是让 schema 生成变得可靠的关键。在 AI 生成 schema 后,它会经过一个校验器,检查涵盖类型正确性、expertise 分配、引用完整性和数据完整性的 8 条规则。如果任何规则未通过,具体的错误信息会被发送回 AI,以便它在下一次尝试中修复问题。
revenue:类型不匹配——输入为数字,但模式要求为 'string'number。全部 8 条规则通过。架构被接受。这种方法远比在 prompt 中要求 AI“注意类型”更可靠。校验器会捕获具体错误,并向 AI 提供精确反馈以便修正。在校验规则指南中详细了解每条规则。
生成的 schema 不仅仅是简单的类型定义。每个属性都包含指导扩充过程的元数据:
JSON Schema 类型(string、number、integer、boolean、array、object)
告诉 AI 要查找哪些信息的上下文描述
由哪个专家领域(财务、监管等)提供该值
该字段用于标识实体(搜索)还是对数组去重(合并)
字段是否可为 null,以避免对可选数据进行不必要的重试
该字段是否应跨多种语言进行富集
是否在富集过程中保持原始值不变
引导 AI 采用正确格式的真实示例值
AI 会根据语义含义将 schema 属性归类到不同的专业领域。例如,一个制药公司的 schema 可能包含“财务分析师”“监管专家”和“公司信息”等领域。多专业策略会利用这些领域并行运行专门的 LLM 调用,以获得更深入的结果。
专业领域的数量会根据你数据的属性数量自动限制,以防止过度碎片化:
AI 生成有效架构后,会有三个确定性的后处理步骤,根据你的实际输入数据对其进行优化:
输入中值为 null 的字段会自动标记为可为空,因此 AI 不会浪费重试去尝试填充它们。
对于值为空(null、空字符串、零)的字段,会移除其搜索键标记,因为它们无法帮助识别实体。
系统会从 schema 中收集所有唯一的专业领域,用于指标统计和策略配置。
生成后,你可以使用自然语言指令修改架构。输入命令,AI 会在保留现有架构结构的同时应用更改。每次编辑还会生成 5 条进一步改进的建议。
添加一个 employee_count 整数字段创建包含城市和国家/地区的嵌套地址对象为所有文本字段添加法语描述使用 $defs 定义母公司引用将 website 字段标记为可为空AI 编辑会使用生成规则的一个子集(类型检查、引用完整性、专业领域一致性)进行验证,但不会与输入数据进行比较,因为你可能有意添加或删除字段。
模式生成和 AI 编辑都会生成 5 条针对性建议,覆盖不同的改进类别:
建议会以可点击的标签形式显示在 Schema 编辑器 中——点击其中一个即可自动填入 AI 编辑输入框并应用。