Бенчмарки моделей — документация Entity Enricher

Бенчмарки моделей

Сценарии бенчмарка позволяют сравнивать модели LLM на реальной воспроизводимой задаче обогащения — на равных условиях — фиксируя выходные данные и общую стоимость каждой модели, чтобы вы могли выбрать подходящую модель для задачи.

Зачем нужен бенчмарк?

Модели сильно различаются по точности, надёжности структурированного вывода и цене. Вместо догадок сценарий бенчмарка прогоняет одну и ту же схему и сущность через множество моделей одновременно и фиксирует, что выдала каждая и во сколько это обошлось. Вы сравниваете по фактам, а затем закрепляете самую дешёвую модель, которая соответствует вашей планке качества.

Как это работает

Определите сценарий

Сценарий бенчмарка — это сохранённый и переиспользуемый тест обогащения: схема, фиксированный ввод сущности (ключи поиска или сырой JSON), стратегия обогащения, языки, переключатели схемы ответа / строгого структурированного вывода и любые вложения. Он также содержит свой эталонный образец и способ оценки результатов относительно него (необязательная модель-судья, модель эмбеддингов и порог строгости). Определите его один раз и переиспользуйте для каждой модели, которую хотите сравнить.

Запустите на разных моделях

Когда у сценария есть проверенный эталон, запустите его на активных моделях одного провайдера или всех активных моделях в текущем представлении. Каждая модель обогащается независимо — без слияния — так что вы получаете чистый результат по каждой модели для сравнения. Прогресс отображается в реальном времени, и по завершении запуска каждый успешный результат автоматически оценивается относительно эталона.

Сравнение результата и стоимости

Каждый запуск сохраняется со своим структурированным выводом, статусом успеха, числом токенов, временем обработки и полной выставленной стоимостью. Разверните любую строку, чтобы просмотреть вывод JSON или перейти к соответствующей записи обогащения.

Запустите снова для обновления

Повторный запуск сценария на той же модели перезаписываетеё предыдущий результат, поэтому таблица всегда отражает последний запуск. Измените конфигурацию сценария — и старые результаты помечаются как устаревшие, пока вы их не перезапустите. Установите Запусков на модель в 2 или 3, и каждая модель тестируется столько же раз — таблица хранит среднее затрат, качества и скорости плюс разброс согласованности (модели варьируются от запуска к запуску), примерно за такое же кратное число кредитов.

Чтение результатов

Таблица результатов создана для сравнения. Сводная полоса вверху выделяет процент успеха, а также самые дешёвые и самые быстрые модели, завершившиеся успешно. Каждый столбец — модель, статус, стратегия, стоимость, токены и время — можно сортировать, поэтому одним щелчком модели ранжируются по цене или задержке. Фильтруйте по названию модели, статусу или стратегии, чтобы сузить представление, и разверните любую строку, чтобы прочитать полный структурированный вывод или открыть исходную запись обогащения.

Итерация: повтор и отключение

Бенчмаркинг — итеративный процесс. Отмечайте строки флажками (shift-клик для выбора диапазона), затем используйте меню ···, чтобы работать с подмножеством, не запуская всё заново:

Повторить выбранные / неудавшиеся / устаревшие — повторно запустить только эти модели; результаты перезаписываются на месте. Неудавшиеся и устаревшие намеренно охватывают весь набор результатов, поэтому активный фильтр никогда не скрывает цель повторного запуска.
Отключить неудачные / выбранные — отключите модели, чтобы они перестали появляться в списках выбора для обогащения. Удобно для отсеивания моделей, которые постоянно не справляются с вашей схемой или чей вывод не соответствует вашей планке.

Задайте золотой эталон (требуется для бенчмарка)

Каждый сценарий содержит эталонный результат — ожидаемый вывод для его сущности, — и сценарий можно протестировать бенчмарком только после того, как этот эталон проверен. До этого он не появится ни в одном меню запуска. Эталон — это базовая линия для оценки качества: насколько близко каждая модель подходит, поле за полем, и (для списков вроде состава актёров фильма) сколько верных элементов она действительно нашла. Вы задаёте его — вместе с моделью-судьёй, моделью эмбеддингов и строгостью оценки относительно него — прямо в редакторе сценария.

Создайте его двумя способами. Сгенерируйте: прикрепите документ с правильными значениями (техническое описание, официальную страницу), включите веб-поиск и запустите несколько сильных моделей — они извлекают ответ из вашего источника, а не из памяти, поэтому результат основан на истине, а не на догадках. Или вставьте уже имеющийся у вас проверенный результат. В любом случае вы просматриваете JSON, вносите исправления и отмечаете его как проверенный — явное подтверждение того, что это эталонный ответ.

Поскольку эталон обоснован и один раз проверен человеком, он служит надёжным ориентиром, который вы повторно используете для каждой модели и каждого будущего запуска.

Где это найти

Бенчмарки находятся в разделе Управление моделями → Бенчмарки (доступно владельцам и администраторам организации). Создавайте сценарии и управляйте ими там или запускайте прогон из любого из четырёх мест: кнопка Бенчмарк моделей на панели инструментов (все активные модели в представлении), действие Бенчмарк моделей в строке любого провайдера (активные модели этого провайдера), выпадающее меню Бенчмарк, которое появляется при выборе моделей на панели «Модели» (выбранные модели), или действие Бенчмарк модели в строке любой отдельной модели.

Стоимость и оплата

Запуски бенчмарка совершают реальные вызовы LLM и списывают кредиты в зависимости от фактического использования, точно так же, как обычное обогащение. Диалог подтверждения сообщает, сколько моделей вы собираетесь запустить, прежде чем произойдут любые списания. Каждый сохранённый результат показывает свою оплаченную стоимость, поэтому бенчмарк также служит инструментом сравнения затрат.

Оценка бенчмарка

Оценивайте результаты по эталонному образцу — эквивалентность, F1 для массивов, промежуточные оценки.

Модели и цены

Управление моделями, синхронизация цен и запуск проверок работоспособности.

Стратегии обогащения

Один проход, экспертные области и мульти-экспертиза.

Оптимизация стоимости

Сохраняйте обогащение недорогим с помощью кэширования и фильтрации.

Панель стоимости

Анализируйте расходы с помощью временных рядов и разбивки по моделям.