ИИ-генерация схемы — Entity Enricher

ИИ-генерация схемы

Вставьте любой образец данных JSON, и AI сгенерирует полностью типизированную схему обогащения — с областями экспертизы, ключами поиска, определением многоязычных полей и правилами валидации. Процесс генерации включает до 6 попыток самокоррекции, гарантируя, что схема будет валидной ещё до того, как вы её увидите.

Конвейер генерации схемы

ШАГ 1

Вставить образец JSON

Любой объект или массив JSON, представляющий данные вашей сущности

ШАГ 2

ИИ генерирует схему

LLM анализирует типы данных, вложенность, шаблоны именования и области экспертизы

ШАГ 3

Валидация по 8 правилам

1.Корректность типов
2.Корректность целей $ref
3.Назначение экспертизы
4.Ограничения количества областей экспертизы
5.Валидность ключа поиска
6.Именование свойств
7.Глубина вложенной структуры
8.Ограничения обязательных полей

Если проверка не пройдена, ошибки отправляются обратно в LLM для самокоррекции (до 6 повторных попыток)

ШАГ 4

Постобработка

Определение допустимости null, понижение приоритета ключа поиска, сбор экспертной области

ВЫВОД

Проверенная схема обогащения

Готово к обогащению с типизированными свойствами, областями экспертизы и ключами поиска

Самокоррекция через ModelRetry

LLM иногда генерируют схемы со структурными проблемами — несоответствие типов между схемой и входными данными, $ref, указывающий на несуществующее определение, или слишком много областей экспертизы. Entity Enricher использует механизм ModelRetry из Pydantic-AI, чтобы выявлять эти проблемы и передавать их обратно в LLM для исправления в рамках того же запуска генерации.

Это происходит прозрачно. Система проверяет вывод LLM по 8 правилам, и если какое-либо правило нарушается, конкретные ошибки отправляются обратно модели с инструкциями по их исправлению. Этот цикл повторных попыток выполняется до 6 раз, обеспечивая почти 100% корректный вывод по схеме без ручного вмешательства.

Применённые правила проверки

Корректность типов

Типы свойств схемы должны соответствовать типам данных, наблюдаемым во входном JSON.

Целостность $ref

Все указатели $ref должны ссылаться на сущности, определённые в разделе $defs.

Назначение экспертизы

Каждое свойство должно принадлежать допустимой области экспертизы.

Количество экспертиз

Общее число областей экспертизы должно оставаться в пределах настраиваемых лимитов.

Валидность ключа поиска

Ключи поиска должны ссылаться на существующие свойства с непустыми значениями.

Именование свойств

Имена свойств должны соответствовать соглашению snake_case.

Глубина структуры

Глубина вложенности должна оставаться в пределах лимита (по умолчанию 10 уровней).

Ограничения поля

Обязательные поля, минимальные/максимальные значения и ограничения enum проверяются.

Интеллектуальная постобработка

После того как LLM генерирует и самостоятельно исправляет схему, применяются дополнительные преобразования на основе данных:

Определение допустимости null

Если во входных данных есть null-значения для поля, свойство схемы автоматически помечается как допускающее null. Это позволяет LLM возвращать null для полей, где данные недоступны, вместо того чтобы навязывать выдуманные значения.

Понижение ключа поиска

У полей, отмеченных как ключи поиска, но с пустыми значениями во входных данных, флаг ключа поиска снимается. Это не даёт пустым ключам поиска размывать фокус промпта обогащения.

Коллекция экспертиз

Все области экспертизы собираются из вложенных свойств в список верхнего уровня, что позволяет с первого взгляда оценить охват областей в вашей схеме.

Редактирование схем на естественном языке

После генерации схемы вы можете изменить её с помощью инструкций на естественном языке. Введите что-то вроде «add a parent_company reference with name and ownership_percentage», и ИИ применит структурное изменение, сохраняя все правила валидации и назначения областей экспертизы.

Каждое AI-редактирование также порождает 5 предложений по улучшению — например, добавление недостающих полей, улучшение описаний или реорганизация expertise domain. Вы можете применить эти предложения одним щелчком.

Для прямого контроля визуальный редактор схемы предоставляет упорядочивание свойств перетаскиванием, редактирование полей на месте, навигацию с клавиатуры и полную поддержку отмены/повтора действий. Подробнее см. документацию редактора схемы.

От схемы к типобезопасному результату

Entity Enricher не просто генерирует документ JSON-схемы — он преобразует вашу схему в динамическую модель Pydantic во время выполнения. Затем эта модель используется как тип структурированного вывода для агентов Pydantic-AI, а значит, вывод LLM проверяется на соответствие вашей схеме на уровне типов. Некорректный вывод вызывает автоматические повторные попытки.

Этот подход сочетает гибкость пользовательских схем с типобезопасностью скомпилированных моделей. Вы получаете лучшее из обоих миров: определяете любую нужную структуру, а система автоматически её обеспечивает.

Сгенерируйте свою первую схему

Вставьте образец JSON, выберите модель и получите проверенную схему обогащения за секунды. Затем доработайте её с помощью естественного языка или визуального редактора.

Начать бесплатно