Пакетная обработка — документация Entity Enricher

Пакетная обработка

Обогащайте до 100 сущностей параллельно с отслеживанием прогресса в реальном времени, автоматическим многомодельным слиянием и экспортом в JSON или Excel.

Способы ввода

Пакетное обогащение поддерживает два способа передачи данных о сущностях:

Редактор JSON

Вставьте или введите массив JSON с сущностями напрямую. Редактор предоставляет подсветку синтаксиса, маркеры валидации и сохраняет ваши данные между сессиями в локальном хранилище.

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

Загрузка по URL

Получайте сущности из любой конечной точки REST API. Система автоматически извлекает массивы из распространённых обёрток ответа.

Поддерживаемая аутентификация:

НетТокен BearerЗаголовок ключа APIBasic Auth

Если API возвращает объект, система проверяет ключи вроде data, results, items на наличие вложенного массива.

Выбор и проверка сущности

После загрузки сущности появляются в списке с возможностью выбора и статусом валидации. Вы можете выбрать, какие сущности включить в пакет:

Множественный выборНажимайте, чтобы выбрать отдельные сущности. Shift+клик — для диапазонов. Ctrl+A — выбрать все, Ctrl+D — снять выделение.
Встроенное редактированиеНажмите на поля ключей поиска (имя, страна и т. д.), чтобы отредактировать их прямо в списке перед обогащением.
ПроверкаКаждая entity проверяется по ключам поиска schema. Должен быть заполнен хотя бы один ключ поиска. Недействительные entity показывают предупреждения, но их всё равно можно выбрать.
Выборочная обработкаДля обогащения отправляются только выбранные сущности. Снимите выделение с сущностей, которые не хотите обрабатывать.

Конфигурация

Боковая панель повторяет параметры настройки одиночного обогащения:

ВариантОписание
СхемаЦелевая схема, определяющая структуру результата обогащения
СтратегияОдин проход, экспертные области или мульти-экспертиза (параллельные вызовы по областям)
МоделиОдна или несколько AI-моделей для запуска на каждую сущность. Несколько моделей включают автоматическое слияние.
ЯзыкиЯзыки для многоязычного обогащения полей (например, английский + французский)
КлассификацияНеобязательная быстрая модель для проверки типа сущности перед обогащением
АрбитражМодель для разрешения конфликтов на основе LLM во время слияния. Если не задана, используется слияние на основе правил.

Оценка стоимости

Перед запуском пакета диалог подтверждения показывает оценку стоимости и сводку. Оценка рассчитывается на основе количества свойств, тарифов моделей, а также числа выбранных сущностей и моделей. Предупреждение появляется, когда общее число вызовов LLM превышает 100.

Сущности
20
Модели
2
Всего вызовов
~40
Ориент. стоимость
~$1.50

Параллельное выполнение

Все выбранные сущности обрабатываются одновременно. Каждая сущность независимо проходит полный конвейер обогащения:

Конвейер по каждой сущности

  1. Классификация (необязательно) — Быстрая модель проверяет тип сущности. В пакетном режиме несоответствия не приостанавливают задачу; контекст передаётся дальше.
  2. Обогащение несколькими моделями — Каждая выбранная модель обогащает сущность параллельно, с ограничением частоты запросов для каждого провайдера.
  3. Автослияние (когда успешно отрабатывают 2+ моделей) — Результаты автоматически объединяются с помощью обнаружения и разрешения конфликтов.

Ограничение частоты запросов

Глобальный ограничитель скорости предотвращает перегрузку провайдеров ИИ. Все сущности используют одни и те же ограничения параллелизма для каждого провайдера (обычно 5 одновременных вызовов на провайдера). При 20 сущностях и 2 моделях на одного провайдера одновременно выполняется до 5 вызовов — остальные ожидают доступности. Это обеспечивает надёжное выполнение без превышения лимитов скорости API.

Прогресс в реальном времени

Панель результатов показывает прогресс в реальном времени с помощью Server-Sent Events (SSE). У каждой сущности есть сворачиваемая карточка, которая обновляется в реальном времени:

В ожидании

Ожидание начала обработки

Выполняется

Обогащается в данный момент, с индикаторами прогресса по каждому экспертному домену

Завершено

Все модели успешно завершены. Карточка сворачивается автоматически.

Частично

Некоторые модели или экспертизы завершились с ошибкой. Доступны частичные результаты.

Не удалось

Все модели завершились с ошибкой для этой сущности. Показаны детали ошибки.

Отмена и обработка ошибок

Вы можете отменить выполняющийся пакет в любой момент. Отмена кооперативная — сущности, уже находящиеся в обработке, завершают свой текущий вызов LLM, но новые вызовы не начинаются. Частичные результаты завершённых сущностей сохраняются.

Устойчивость к ошибкам

Пакетная обработка спроектирована как отказоустойчивая. Отдельные сбои не останавливают пакет:

  • Если классификация сущности не удаётся, обогащение продолжается без контекста
  • Если одна модель терпит неудачу, другие модели для этой сущности продолжают работу
  • Если все модели терпят неудачу для сущности, она помечается как неудавшаяся, а остальные продолжают работу
  • Модели, возвращающие ошибки «не найдено», автоматически деактивируются

Форматы экспорта

После завершения пакета экспортируйте результаты в трёх форматах. Для каждой сущности предпочтительно используется результат слияния, если он доступен; в противном случае используется результат лучшей модели.

Файл JSON

Скачайте полные результаты в виде структурированного файла JSON со всеми данными сущностей, выводами моделей и метаданными слияния.

Буфер обмена

Скопируйте результаты JSON прямо в буфер обмена, чтобы вставить их в другие инструменты или скрипты.

Excel

Книга из трёх листов: Results (одна строка на сущность с развёрнутыми свойствами), Summary (метаданные пакета, модели, затраты) и Conflicts (детали конфликтов по каждой сущности с обоснованием разрешения).

Лимиты

ЛимитЗначение
Макс. сущностей в пакете100
Макс. размер данных сущности50 000 символов
Макс. длина промпта100 000 символов
Тайм-аут загрузки по URL30 секунд

Дальнейшие шаги