Сценарии бенчмарка позволяют сравнивать модели LLM на реальной воспроизводимой задаче обогащения — на равных условиях — фиксируя выходные данные и общую стоимость каждой модели, чтобы вы могли выбрать подходящую модель для задачи.
Модели сильно различаются по точности, надёжности структурированного вывода и цене. Вместо догадок сценарий бенчмарка прогоняет одну и ту же схему и сущность через множество моделей одновременно и фиксирует, что выдала каждая и во сколько это обошлось. Вы сравниваете по фактам, а затем закрепляете самую дешёвую модель, которая соответствует вашей планке качества.
Сценарий бенчмарка — это сохранённый и переиспользуемый тест обогащения: схема, фиксированный ввод сущности (ключи поиска или сырой JSON), стратегия обогащения, языки, переключатели схемы ответа / строгого структурированного вывода и любые вложения. Он также содержит свой эталонный образец и способ оценки результатов относительно него (необязательная модель-судья, модель эмбеддингов и порог строгости). Определите его один раз и переиспользуйте для каждой модели, которую хотите сравнить.
Когда у сценария есть проверенный эталон, запустите его на активных моделях одного провайдера или всех активных моделях в текущем представлении. Каждая модель обогащается независимо — без слияния — так что вы получаете чистый результат по каждой модели для сравнения. Прогресс отображается в реальном времени, и по завершении запуска каждый успешный результат автоматически оценивается относительно эталона.
Каждый запуск сохраняется со своим структурированным выводом, статусом успеха, числом токенов, временем обработки и полной выставленной стоимостью. Разверните любую строку, чтобы просмотреть вывод JSON или перейти к соответствующей записи обогащения.
Повторный запуск сценария на той же модели перезаписываетеё предыдущий результат, поэтому таблица всегда отражает последний запуск. Измените конфигурацию сценария — и старые результаты помечаются как устаревшие, пока вы их не перезапустите. Установите Запусков на модель в 2 или 3, и каждая модель тестируется столько же раз — таблица хранит среднее затрат, качества и скорости плюс разброс согласованности (модели варьируются от запуска к запуску), примерно за такое же кратное число кредитов.
Таблица результатов создана для сравнения. Сводная полоса вверху выделяет процент успеха, а также самые дешёвые и самые быстрые модели, завершившиеся успешно. Каждый столбец — модель, статус, стратегия, стоимость, токены и время — можно сортировать, поэтому одним щелчком модели ранжируются по цене или задержке. Фильтруйте по названию модели, статусу или стратегии, чтобы сузить представление, и разверните любую строку, чтобы прочитать полный структурированный вывод или открыть исходную запись обогащения.
Бенчмаркинг — итеративный процесс. Отмечайте строки флажками (shift-клик для выбора диапазона), затем используйте меню ···, чтобы работать с подмножеством, не запуская всё заново:
Каждый сценарий содержит эталонный результат — ожидаемый вывод для его сущности, — и сценарий можно протестировать бенчмарком только после того, как этот эталон проверен. До этого он не появится ни в одном меню запуска. Эталон — это базовая линия для оценки качества: насколько близко каждая модель подходит, поле за полем, и (для списков вроде состава актёров фильма) сколько верных элементов она действительно нашла. Вы задаёте его — вместе с моделью-судьёй, моделью эмбеддингов и строгостью оценки относительно него — прямо в редакторе сценария.
Создайте его двумя способами. Сгенерируйте: прикрепите документ с правильными значениями (техническое описание, официальную страницу), включите веб-поиск и запустите несколько сильных моделей — они извлекают ответ из вашего источника, а не из памяти, поэтому результат основан на истине, а не на догадках. Или вставьте уже имеющийся у вас проверенный результат. В любом случае вы просматриваете JSON, вносите исправления и отмечаете его как проверенный — явное подтверждение того, что это эталонный ответ.
Поскольку эталон обоснован и один раз проверен человеком, он служит надёжным ориентиром, который вы повторно используете для каждой модели и каждого будущего запуска.
Бенчмарки находятся в разделе Управление моделями → Бенчмарки (доступно владельцам и администраторам организации). Создавайте сценарии и управляйте ими там или запускайте прогон из любого из четырёх мест: кнопка Бенчмарк моделей на панели инструментов (все активные модели в представлении), действие Бенчмарк моделей в строке любого провайдера (активные модели этого провайдера), выпадающее меню Бенчмарк, которое появляется при выборе моделей на панели «Модели» (выбранные модели), или действие Бенчмарк модели в строке любой отдельной модели.
Запуски бенчмарка совершают реальные вызовы LLM и списывают кредиты в зависимости от фактического использования, точно так же, как обычное обогащение. Диалог подтверждения сообщает, сколько моделей вы собираетесь запустить, прежде чем произойдут любые списания. Каждый сохранённый результат показывает свою оплаченную стоимость, поэтому бенчмарк также служит инструментом сравнения затрат.