모델 벤치마크 - Entity Enricher 문서

모델 벤치마크

벤치마크 시나리오를 사용하면 실제로 반복 가능한 보강 작업에서 LLM 모델을 동일한 조건으로 비교할 수 있으며, 각 모델의 출력과 총 비용을 기록하여 작업에 적합한 모델을 선택할 수 있습니다.

왜 벤치마크를 해야 할까요?

모델은 정확도, 구조화된 출력의 신뢰성, 가격 면에서 크게 다릅니다. 추측하는 대신, 벤치마크 시나리오는 동일한 스키마와 엔티티를 여러 모델에 한 번에 실행하여 각 모델이 무엇을 생성했고 비용이 얼마였는지 기록합니다. 근거를 바탕으로 비교한 뒤, 품질 기준을 충족하는 가장 저렴한 모델을 확정하세요.

작동 방식

시나리오를 정의합니다

벤치마크 시나리오는 저장되어 재사용 가능한 강화 테스트입니다: 스키마, 고정된 엔터티 입력(검색 키 또는 원시 JSON), 강화 전략, 언어, response-schema / strict-structured-output 토글, 그리고 모든 첨부파일. 또한 골드 레퍼런스와 이에 대해 결과가 어떻게 채점되는지(선택적 판정 모델, 임베딩 모델, 엄격도 임계값)를 담고 있습니다. 한 번 정의하면 비교하려는 모든 모델에서 재사용할 수 있습니다.

여러 모델에 걸쳐 실행

시나리오에 검증된 참조가 있으면 한 제공자의 활성 모델 또는 화면에 표시된 모든 활성 모델을 대상으로 실행합니다. 각 모델은 독립적으로 보강되므로 — 융합 없이 — 모델별로 깔끔하게 나란히 비교할 수 있는 결과를 얻습니다. 진행 상황이 실시간으로 스트리밍되며, 실행이 끝나면 성공한 각 결과가 참조를 기준으로 자동으로 채점됩니다.

출력 및 비용 비교

모든 실행은 구조화된 출력, 성공 상태, 토큰 수, 처리 시간 및 총 청구 비용과 함께 저장됩니다. 행을 펼쳐 JSON 출력을 확인하거나 기반이 되는 강화 레코드로 이동할 수 있습니다.

새로 고치려면 다시 실행하세요

같은 모델에서 시나리오를 다시 실행하면 이전 결과를 덮어쓰므로 표에는 항상 최신 실행이 반영됩니다. 시나리오의 구성을 편집하면 이전 결과는 다시 실행할 때까지 오래됨으로 표시됩니다. 모델당 실행 횟수를 2 또는 3으로 설정하면 각 모델이 그만큼 벤치마크되며, 표에는 비용, 품질, 속도의 평균과 일관성 편차(모델은 실행마다 달라집니다)가 유지되고 크레딧은 대략 그 배수만큼 소모됩니다.

결과 읽기

결과 테이블은 비교에 최적화되어 있습니다. 상단의 요약 스트립은 성공률과 성공한 모델 중 가장 저렴한 모델 및 가장 빠른 모델을 강조 표시합니다. 모델, 상태, 전략, 비용, 토큰, 시간 등 모든 열은 정렬 가능하므로, 한 번의 클릭으로 가격이나 지연 시간 기준으로 모델 순위를 매길 수 있습니다. 모델 이름, 상태, 전략으로 필터링하여 보기를 좁히고, 아무 행이나 펼쳐 전체 구조화된 출력을 읽거나 기반이 되는 보강 레코드를 열 수 있습니다.

반복: 재시도 및 비활성화

벤치마킹은 반복적입니다. 체크박스로 행을 선택한 다음(범위 선택은 shift-클릭), 전체를 다시 실행하지 않고 일부에만 작업하려면 ··· 메뉴를 사용하세요:

선택 항목 / 실패 / 오래된 항목 재시도 — 해당 모델만 다시 실행하며, 결과는 제자리에서 덮어씁니다. 실패와 오래된 항목은 의도적으로 전체 결과 집합에 적용되므로, 활성 필터가 재시도 대상을 숨기는 일이 없습니다.
실패한 / 선택한 항목 비활성화 — 모델을 꺼서 강화 선택기에 더 이상 나타나지 않도록 합니다. 스키마에서 지속적으로 실패하거나 출력이 기준에 미치지 못하는 모델을 정리하는 데 유용합니다.

골드 reference 설정 (benchmark에 필요)

모든 시나리오는 참조 결과(해당 엔티티에 대한 예상 출력)를 가지며, 그 참조가 검증되어야만 시나리오를 벤치마크할 수 있습니다. 그 전까지는 어떤 실행 메뉴에도 나타나지 않습니다. 참조는 품질을 판단하는 기준선입니다. 각 모델이 필드별로 얼마나 근접하는지, 그리고 (영화 출연진 같은 목록의 경우) 올바른 항목 중 실제로 몇 개를 찾았는지를 판단합니다. 참조는 이를 기준으로 채점하는 데 사용되는 심사 모델, 임베딩 모델, 엄격도와 함께 시나리오 편집기에서 직접 설정합니다.

두 가지 방법으로 만들 수 있습니다. 생성: 올바른 값이 담긴 문서(데이터시트, 공식 페이지)를 첨부하고 웹 검색을 켠 뒤 강력한 모델 몇 개를 실행합니다 — 모델은 기억이 아니라 소스에서 답을 추출하므로 결과가 추측이 아닌 사실에 기반합니다. 또는 이미 보유한 검증된 결과를 붙여넣기 합니다. 어느 방법이든 JSON을 검토하고 필요한 부분을 수정한 뒤 검증됨으로 표시합니다 — 이것이 정답임을 명시적으로 승인하는 것입니다.

참조 데이터는 근거가 확실하고 사람이 한 번 검증하므로, 모든 모델과 향후 모든 실행에서 재사용할 수 있는 신뢰성 높은 기준 역할도 합니다.

찾을 수 있는 위치

벤치마크는 Model Management → Benchmarks에 있습니다(조직 소유자 및 관리자만 사용 가능). 그곳에서 시나리오를 만들고 관리하거나, 다음 네 곳 중 아무 곳에서나 실행을 시작할 수 있습니다: 툴바의 Benchmark models 버튼(화면에 보이는 모든 활성 모델), 공급자 행의 Benchmark models 작업(해당 공급자의 활성 모델), Models 패널에서 모델을 선택하면 나타나는 Benchmark 드롭다운(선택한 모델), 또는 개별 모델 행의 Benchmark model 작업.

비용 및 청구

벤치마크 실행은 일반 보강과 마찬가지로 실제 LLM 호출을 수행하고 실제 사용량에 따라 크레딧을 차감합니다. 확인 대화상자는 비용이 발생하기 전에 실행하려는 모델 수를 알려줍니다. 저장된 각 결과에 청구 비용이 표시되므로, 벤치마크는 비용 비교 도구 역할도 합니다.

벤치마크 채점

골드 기준과 대조하여 결과를 채점합니다 — 동등성, 배열 F1, 세부 점수.

모델 및 가격

모델을 관리하고, 가격을 동기화하며, 상태 확인을 실행합니다.

강화 전략

단일 패스 대 전문 영역 대 다중 전문성.

비용 최적화

캐싱과 게이팅으로 강화 비용을 낮게 유지하세요.

비용 대시보드

시계열 및 모델별 분석으로 지출을 분석합니다.