Генерируйте структурированные JSON-схемы из образца данных с помощью ИИ, с автоматической самокоррекцией и интеллектуальной постобработкой.
Генерация схемы превращает необработанные данные сущности в типизированную аннотированную JSON-схему, которая точно определяет, какую информацию извлекать в ходе обогащения. Вместо того чтобы писать схемы вручную, вы вставляете образец JSON и позволяете ИИ проанализировать структуру, определить типы, назначить области экспертизы и предложить улучшения.
{"en": "...", "fr": "..."}) сворачиваются в одно значение, а количество свойств определяет, сколько областей экспертизы разрешено.Цикл самокоррекции — это то, что делает генерацию схем надёжной. После того как ИИ создаёт схему, она проходит через валидатор, который проверяет 8 правил, охватывающих корректность типов, назначение экспертизы, целостность ссылок и полноту данных. Если какое-либо правило не выполняется, конкретное сообщение об ошибке отправляется обратно ИИ, чтобы он мог исправить проблему в следующей попытке.
revenue: несоответствие типов — на входе число, но в схеме указано 'string'number. Все 8 правил пройдены. Схема принята.Этот подход гораздо надёжнее, чем просьба к ИИ «внимательно относиться к типам» в промпте. Валидатор обнаруживает конкретные ошибки и даёт ИИ точную обратную связь для их исправления. Подробнее о каждом правиле — в руководстве Правила валидации.
Сгенерированная схема — это больше, чем простое определение типов. Каждое свойство включает метаданные, которые направляют процесс обогащения:
Тип схемы JSON (string, number, integer, boolean, array, object)
Контекстное описание, которое указывает ИИ, какую информацию искать
Какая экспертная область (финансовая, нормативная и т. д.) предоставляет это значение
Идентифицирует ли это поле сущность (search) или устраняет дубликаты в массивах (merge)
Может ли поле быть null, что предотвращает лишние повторные попытки для необязательных данных
Должно ли поле обогащаться на нескольких языках
Оставить ли исходное значение без изменений во время обогащения
Реалистичные примеры значений, которые направляют ИИ к правильному формату
ИИ группирует свойства схемы по областям экспертизы на основе их семантического значения. Например, схема фармацевтической компании может иметь такие области, как «Финансовый аналитик», «Эксперт по нормативным вопросам» и «Корпоративная информация». Эти области используются стратегией мульти-экспертизы для выполнения параллельных специализированных вызовов LLM ради более глубоких результатов.
Количество областей экспертизы автоматически ограничивается на основе числа свойств ваших данных, чтобы предотвратить чрезмерное дробление:
После того как ИИ генерирует корректную схему, три детерминированных шага постобработки уточняют её на основе ваших фактических входных данных:
Поля со значениями null в ваших входных данных автоматически помечаются как допускающие null, поэтому ИИ не будет тратить повторные попытки, пытаясь их заполнить.
Флаги ключа поиска удаляются с полей, имеющих пустые значения (null, пустая строка, ноль), так как они не помогают идентифицировать сущность.
Все уникальные области экспертизы собираются из схемы для метрик и настройки стратегии.
После генерации вы можете изменять схемы с помощью инструкций на естественном языке. Введите команду, и ИИ применит изменение, сохраняя существующую структуру схемы. Каждое редактирование также создаёт 5 рекомендаций по дальнейшим улучшениям.
Добавить целочисленное поле employee_countСоздать вложенный объект адреса с городом и странойДобавить французские описания ко всем текстовым полямОпределите ссылку на материнскую компанию с помощью $defsОтметьте поле веб-сайта как допускающее nullПравки ИИ проверяются с помощью части правил генерации (проверка типов, целостность ссылок, согласованность экспертизы) без сравнения с входными данными, поскольку вы можете намеренно добавлять или удалять поля.
И генерация схемы, и редактирование с помощью ИИ дают 5 целевых предложений, охватывающих разные категории улучшений:
Подсказки появляются в виде кликабельных чипов в редакторе схем — нажмите одну, чтобы автоматически заполнить поле AI-редактирования и применить её.