Стратегии обогащения — документация Entity Enricher

Стратегии обогащения

Entity Enricher предлагает две стратегии обогащения, которые управляют тем, как оркеструются вызовы LLM. Выбор правильной стратегии влияет на точность, скорость и стоимость.

Диаграммы конвейеров

От самой простой до самой мощной конфигурации. Каждая основывается на предыдущей.

Простой

Один проход — 1 модель

Одна модель, один вызов. Вся схема отправляется в одном промпте. Быстро и дёшево — идеально для простых схем или быстрой итерации.

Сущность

Aspirin

Любая сущность: компания, лекарство, судебное дело, научная статья...

Anthropic

Используйте любого LLM-провайдера со своим API-ключом.

AnthropicПолная схема

Полная схема за один вызов — автоповтор при ошибке валидации.

Обогащённый результат

Aspirin

Мультимодельный

Один проход — 3 модели

Та же стратегия, но с запуском на нескольких моделях параллельно. Результаты сравниваются и арбитрируются поле за полем для получения единого результата с высокой уверенностью.

Сущность

Aspirin

Любая сущность: компания, лекарство, судебное дело, научная статья...

Предварительная классификация

Совпадение — Pharmaceutical Compound

Выявляет несоответствия типов до того, как будут потрачены кредиты LLM.

Anthropic
OpenAI
Google Gemini

Используйте собственные ключи API — работает с любым провайдером LLM.

AnthropicПолная схема
OpenAIПолная схема
GeminiПолная схема

Полная схема за один вызов — автоповтор при ошибке валидации.

Итоговый результат обогащения

Aspirin

Разрешено арбитражем

Обоснованное разрешение конфликтов на уровне полей формирует итоговый доверенный результат.

Дополнительно

Мульти-экспертиза — 3 модели

Схема разбивается по области экспертизы. Каждая модель получает сфокусированные под-промпты для каждой области. Результаты глубоко объединяются для каждой модели, а затем проходят арбитраж между моделями. Максимальная точность для сложных многодоменных схем.

Сущность

Aspirin

Любая сущность: компания, лекарство, судебное дело, научная статья...

Предварительная классификация

Совпадение — Pharmaceutical Compound

Выявляет несоответствия типов до того, как будут потрачены кредиты LLM.

Anthropic
OpenAI
Google Gemini

Используйте собственные ключи API — работает с любым провайдером LLM.

Anthropic
ФармакологияПромпт LLM
РегуляторикаПромпт LLM
OpenAI
ФармакологияПромпт LLM
РегуляторикаПромпт LLM
Gemini
ФармакологияПромпт LLM
РегуляторикаПромпт LLM

Схема разбита по областям — самокорректирующиеся промпты повторяются при ошибке валидации.

Anthropic результат
OpenAI результат
Gemini результат

Глубокое слияние ответов области экспертизы по каждой модели.

Итоговый результат обогащения

Aspirin

Разрешено арбитражем

Обоснованное разрешение конфликтов на уровне полей формирует итоговый доверенный результат.

Подробное сравнение

АспектОдин проходМульти-экспертиза
Вызовы LLM1 на модельN на модель (1 на область экспертизы)
Схема отправленаПолная схема в одном промптеПодмножество для каждой области экспертизы
ВыполнениеПоследовательно (один вызов)Параллельно (все экспертизы выполняются одновременно)
ТочностьПодходит для простых схемВыше — сфокусированные промпты дают лучшие результаты
СкоростьБыстрее для небольших схемПараллельное выполнение может быть быстрее для больших схем
СтоимостьНиже (накладные расходы одного вызова)Выше (несколько вызовов с накладными расходами на каждый вызов)
Потоковая передачаРезультат по принципу «всё или ничего»Прогрессивно — результаты передаются по мере завершения каждой экспертизы
Частичный успехНет — весь вызов либо выполняется успешно, либо завершается ошибкойДа — успешные экспертизы сохраняются, неудачные можно повторить

Когда использовать каждую стратегию

Используйте одиночный проход, когда:

  • В вашей схеме меньше 15–20 свойств
  • Все свойства относятся к одной области (например, все финансовые данные)
  • Вам нужен самый быстрый и дешёвый результат, а точность менее важна
  • Вы тестируете новую схему и быстро вносите изменения

Используйте мультиэкспертный режим, когда:

  • Ваша схема охватывает несколько областей экспертизы (фармацевтическую, финансовую, географическую и т. д.)
  • У вас сложная схема с более чем 20 свойствами
  • Точность критична, и вам нужны сфокусированные, специализированные промпты
  • Вам нужен прогресс в реальном времени по мере обработки каждого домена
  • Вам нужна обработка частичного успеха — повтор только того, что не удалось

Как мультиэкспертиза работает в деталях

Стратегия множественной экспертизы следует четырёхшаговому процессу для каждой модели:

1
Группировать свойства по экспертизе

Схема обходится рекурсивно. Каждое свойство с тегом области экспертизы группируется с другими, имеющими ту же область. Например, revenue и market_cap попадают в группу «financial», а gmp_status — в «regulatory».

2
Создавайте узконаправленные подсхемы

Каждая группа expertise становится минимальной под-schema, содержащей только свои свойства. Это означает, что LLM получает меньший, более целенаправленный prompt и должна заполнить только те поля, на которых специализируется.

3
Запуск параллельно

Все вызовы экспертизы выполняются параллельно. Схема с 5 областями экспертизы одновременно запустит 5 вызовов LLM. По мере завершения каждого его результаты глубоко объединяются в накопленный вывод и передаются в интерфейс в реальном времени.

4
Обработка частичных сбоев

Если часть экспертиз не удаётся, система возвращает объединённый результат от успешных со статусом «Частично». Вы можете повторить только неудавшиеся экспертизы, и новые результаты будут объединены с существующим выводом без повторения уже успешно выполненной работы.

Сочетание с обогащением на нескольких моделях

Обе стратегии можно сочетать с обогащением несколькими моделями. Когда вы выбираете несколько моделей, каждая модель выполняет выбранную стратегию независимо. Затем результаты можно объединить с помощью слияния нескольких моделей, чтобы получить единый результат с высокой достоверностью.

Пример: Использование мульти-экспертизы с 3 моделями и схемой с 4 областями экспертизы запустит в общей сложности 12 вызовов LLM (3 модели x 4 экспертизы). Модели от разных провайдеров выполняются параллельно, а модели одного провайдера ставятся в очередь для соблюдения ограничений частоты запросов.