Мультимодельное обогащение и слияние - Entity Enricher

Мультимодельное обогащение и слияние

Запускайте несколько ИИ-моделей параллельно на одной сущности, обнаруживайте конфликты на уровне полей между их выводами и объединяйте результаты в единую запись с высокой уверенностью. В этом ключевое отличие Entity Enricher: вместо доверия одной LLM вы выполняете перекрёстную проверку между провайдерами для максимальной точности данных.

Как работает обогащение несколькими моделями

ВВОД

Данные сущности + схема

Claude

Обогащает независимо

GPT-4

Обогащает независимо

Gemini

Обогащает независимо

ОБНАРУЖЕНИЕ КОНФЛИКТОВ

Сравнение поле за полем по всем выводам моделей

ВАРИАНТ A

Слияние на основе правил

Голосование большинством, медиана, объединение

ВАРИАНТ B

Арбитраж LLM

ИИ разрешает с обоснованием

ОБЪЕДИНЁННЫЙ ВЫВОД

Единая запись с высокой достоверностью и журналом аудита

Параллельное выполнение моделей

Когда вы выбираете несколько моделей для задания обогащения, Entity Enricher отправляет одни и те же данные сущности и схему каждой модели одновременно. Каждая модель работает независимо, не зная о результатах других моделей, что обеспечивает действительно независимые элементы данных.

Система поддерживает любую комбинацию провайдеров — Anthropic Claude, OpenAI GPT-4, Google Gemini, Mistral или самостоятельно размещённые модели через Ollama. Ограничение частоты запросов для каждого провайдера гарантирует, что вы остаётесь в пределах ограничений API каждого провайдера, максимизируя пропускную способность.

Потоковая передача SSE в реальном времени показывает прогресс по мере завершения каждой модели, включая прогресс по каждой области экспертизы при использовании стратегии с несколькими областями экспертизы. Вы можете видеть частичные результаты до того, как все модели завершат работу.

Обнаружение конфликтов с учётом типа

После завершения всех моделей механизм обнаружения конфликтов сравнивает их результаты поле за полем. Сравнение учитывает типы — разные типы полей используют разные правила сравнения:

Тип поляМетод сравненияПравило согласия
Строка / СкалярТочное совпадение (нормализованное)Все значения должны быть равны после нормализации регистра и пробелов
ЧислоТочное числовое совпадениеВсе значения должны быть одинаковыми числами
ЛогическийТочное совпадениеВсе модели должны согласиться на true/false
МногоязычныйСравнение по языкамКаждый языковой ключ сравнивается независимо
МассивСравнение множеств (порядок игнорируется)Одинаковые элементы независимо от порядка
ОбъектРекурсивно по каждому свойствуВсе вложенные поля должны совпадать
Значения nullnull == отсутствуетNull и отсутствие рассматриваются как эквивалентные

Методы разрешения конфликтов

Слияние на основе правил

Детерминированное разрешение с использованием правил голосования. Быстро, предсказуемо и без дополнительного вызова LLM.

  • Строки: Голосование большинством. Ничьи разрешаются в пользу самого длинного значения (чем больше деталей, тем лучше).
  • Числа: Медианное значение. Устойчиво к выбросам от любой отдельной модели.
  • Булевы значения: Голосование большинством. При равенстве побеждает True (консервативно).
  • Массивы: Объединение всех элементов. Сохраняет всю информацию.
  • Объекты: Рекурсивное применение приведённых выше правил к каждому полю.
  • Null: Предпочтительны ненулевые значения. Отсутствие данных хуже любого значения.

Арбитраж LLM

Модель арбитража рассматривает каждый конфликт с учётом контекста сущности и описаний полей, а затем принимает структурированное решение.

  • Обоснование: Каждое решение включает объяснение на естественном языке того, почему было выбрано то или иное значение.
  • Уверенность: Высокая, средняя или низкая оценка уверенности по каждому решению.
  • Выбранное значение: Арбитр выбирает из доступных выводов моделей или синтезирует лучший ответ.
  • Резервный вариант: Если арбитраж не удаётся, система автоматически переходит к объединению на основе правил.

Полный журнал аудита

Каждая объединённая запись включает метаданные арбитража с полным происхождением:

Эти метаданные хранятся вместе с объединённой записью и экспортируются в лист конфликтов Excel, что делает их пригодными для процессов комплаенса, где важно происхождение решений.

Когда обогащение несколькими моделями важнее всего

Критически важные данные

Финансовая проверка благонадёжности, профили безопасности фармацевтических препаратов и комплаенс-скрининг, где ошибки имеют существенные последствия.

Спорные факты

Сущности с противоречивой информацией в разных источниках — суммы финансирования, даты основания или нормативные статусы, которые разные источники сообщают по-разному.

Пробелы в охвате

Когда ни одна отдельная модель не обладает полными знаниями. Разные LLM обучены на разных данных, поэтому запуск нескольких моделей восполняет пробелы.

Требования к уверенности

Когда конечным потребителям нужны оценки уверенности и происхождение для каждого элемента данных, а не только итоговые значения.

Попробуйте обогащение несколькими моделями

Выберите 2+ моделей, запустите их параллельно и посмотрите, как слияние разрешает конфликты. Без ежемесячных обязательств — используйте собственные ключи API и платите за токены.

Начать бесплатно