ИИ-генерация схемы — документация Entity Enricher

ИИ-генерация схемы

Генерируйте структурированные JSON-схемы из образца данных с помощью ИИ, с автоматической самокоррекцией и интеллектуальной постобработкой.

Как это работает

Генерация схемы превращает необработанные данные сущности в типизированную аннотированную JSON-схему, которая точно определяет, какую информацию извлекать в ходе обогащения. Вместо того чтобы писать схемы вручную, вы вставляете образец JSON и позволяете ИИ проанализировать структуру, определить типы, назначить области экспертизы и предложить улучшения.

Конвейер генерации

  1. Предобработка входных данных — Ваш образец JSON анализируется. Локализованные объекты (например, {"en": "...", "fr": "..."}) сворачиваются в одно значение, а количество свойств определяет, сколько областей экспертизы разрешено.
  2. Построение prompt — Адаптивный системный prompt создаётся с учётом сложности ваших данных: наличия вложенных объектов, количества свойств и того, были ли обнаружены многоязычные поля.
  3. Генерация LLM с самокоррекцией — ИИ генерирует схему. Если какое-либо из 8 правил проверки не выполнено, ошибки отправляются обратно ИИ для исправления — всего до 6 попыток.
  4. Постобработка — Детерминированные правила уточняют схему: помечают nullable-поля, очищают пустые ключи поиска и собирают метаданные экспертизы.
  5. Автосохранение — Сгенерированная схема автоматически сохраняется и дедуплицируется с помощью хеширования содержимого, поэтому идентичные схемы не дублируются.

Цикл самокоррекции

Цикл самокоррекции — это то, что делает генерацию схем надёжной. После того как ИИ создаёт схему, она проходит через валидатор, который проверяет 8 правил, охватывающих корректность типов, назначение экспертизы, целостность ссылок и полноту данных. Если какое-либо правило не выполняется, конкретное сообщение об ошибке отправляется обратно ИИ, чтобы он мог исправить проблему в следующей попытке.

Пример самокоррекции

Попытка 1ИИ генерирует схему. Валидатор обнаруживает: revenue: несоответствие типов — на входе число, но в схеме указано 'string'
ПовторитьОшибка отправляется обратно ИИ вместе с контекстом о том, что пошло не так.
Попытка 2ИИ исправляет тип на number. Все 8 правил пройдены. Схема принята.

Этот подход гораздо надёжнее, чем просьба к ИИ «внимательно относиться к типам» в промпте. Валидатор обнаруживает конкретные ошибки и даёт ИИ точную обратную связь для их исправления. Подробнее о каждом правиле — в руководстве Правила валидации.

Что содержит схема

Сгенерированная схема — это больше, чем простое определение типов. Каждое свойство включает метаданные, которые направляют процесс обогащения:

Тип

Тип схемы JSON (string, number, integer, boolean, array, object)

Описание

Контекстное описание, которое указывает ИИ, какую информацию искать

Экспертиза

Какая экспертная область (финансовая, нормативная и т. д.) предоставляет это значение

Ключ поиска

Идентифицирует ли это поле сущность (search) или устраняет дубликаты в массивах (merge)

Допускает null

Может ли поле быть null, что предотвращает лишние повторные попытки для необязательных данных

Многоязычный

Должно ли поле обогащаться на нескольких языках

Сохранить

Оставить ли исходное значение без изменений во время обогащения

Примеры

Реалистичные примеры значений, которые направляют ИИ к правильному формату

Определение области экспертизы

ИИ группирует свойства схемы по областям экспертизы на основе их семантического значения. Например, схема фармацевтической компании может иметь такие области, как «Финансовый аналитик», «Эксперт по нормативным вопросам» и «Корпоративная информация». Эти области используются стратегией мульти-экспертизы для выполнения параллельных специализированных вызовов LLM ради более глубоких результатов.

Ограничения на количество областей

Количество областей экспертизы автоматически ограничивается на основе числа свойств ваших данных, чтобы предотвратить чрезмерное дробление:

5 свойств
1 домен
12 свойств
2 области
30 свойств
5 областей
60 свойств
10 доменов

Постобработка

После того как ИИ генерирует корректную схему, три детерминированных шага постобработки уточняют её на основе ваших фактических входных данных:

Определение допустимости null

Поля со значениями null в ваших входных данных автоматически помечаются как допускающие null, поэтому ИИ не будет тратить повторные попытки, пытаясь их заполнить.

Очистка при пустом ключе поиска

Флаги ключа поиска удаляются с полей, имеющих пустые значения (null, пустая строка, ноль), так как они не помогают идентифицировать сущность.

Коллекция экспертиз

Все уникальные области экспертизы собираются из схемы для метрик и настройки стратегии.

ИИ-редактирование схемы

После генерации вы можете изменять схемы с помощью инструкций на естественном языке. Введите команду, и ИИ применит изменение, сохраняя существующую структуру схемы. Каждое редактирование также создаёт 5 рекомендаций по дальнейшим улучшениям.

Примеры команд редактирования

Добавить целочисленное поле employee_count
Создать вложенный объект адреса с городом и страной
Добавить французские описания ко всем текстовым полям
Определите ссылку на материнскую компанию с помощью $defs
Отметьте поле веб-сайта как допускающее null

Правки ИИ проверяются с помощью части правил генерации (проверка типов, целостность ссылок, согласованность экспертизы) без сравнения с входными данными, поскольку вы можете намеренно добавлять или удалять поля.

Предложения ИИ

И генерация схемы, и редактирование с помощью ИИ дают 5 целевых предложений, охватывающих разные категории улучшений:

Полнота данныхОтсутствующие поля, которые могли бы обогатить вашу сущность
Качество данныхШаблоны проверки, ограничения формата
СвязиВложенные структуры, ссылки на сущности через $defs
ИнтернационализацияМногоязычные переводы, поддержка локалей
Бизнес-контекстПоля, специфичные для области, и группировки по экспертным областям

Подсказки появляются в виде кликабельных чипов в редакторе схем — нажмите одну, чтобы автоматически заполнить поле AI-редактирования и применить её.

Дальнейшие шаги