벤치마크 채점 - Entity Enricher 문서

벤치마크 채점

채점은 벤치마크를 “JSON을 눈으로 확인”하는 방식에서 객관적인 수치로 바꿔줍니다. 각 모델의 결과는 골드 참조 — 예상 출력 — 기준으로 채점되어, 정렬 가능한 완전성, 정확성, 전체 품질 점수를 산출합니다.

골드 참조

채점하려면 기준이 될 무언가가 필요합니다. 각 시나리오에는 참조 출력이 담겨 있습니다. 즉, 고정된 하나의 엔터티에 대한 정답입니다. 강력한 모델로 생성하거나(웹 검색 + 신뢰 출처 문서), 검증된 결과를 붙여넣은 뒤 직접 편집하여 만들고 — 신뢰할 수 있게 되면 검증됨으로 표시하세요. 검증된 참조는 시나리오를 벤치마크하는 데 필수이므로, 채점 기준이 항상 존재합니다. 나중에 참조를 편집하거나 시나리오의 채점 구성을 변경하면, 기존 점수는 다시 채점할 때까지 오래됨으로 표시됩니다.

값을 비교하는 방식

핵심 문제: 두 개의 올바른 답이 다르게 표기될 수 있습니다. 배우를 “Robert Downey Jr.” 대신 “R. Downey Jr.”라고 표기하는 모델이 틀린 것은 아닙니다. 그래서 각 필드는 계층적 단계로 비교됩니다 — 가장 저렴하고 확실한 것부터 시작하여 필요할 때만 상위 단계로 올라갑니다:

정확 및 정규화

동일한 값은 일치합니다. 대소문자, 주변 공백 또는 숫자 정밀도만 다른 값도 일치합니다("Acme" = "ACME", 4.0 = 4). 무료이며 완전히 결정론적입니다.

임베딩 유사도

텍스트의 경우 후보와 참조가 임베딩되어 코사인 유사도로 비교됩니다. 임계값을 초과하면 동일한 것으로 간주되므로 "R. Downey Jr."와 "Robert Downey Jr."처럼 유효한 다른 표기는 오류가 아닌 일치로 처리됩니다. 날짜는 예외입니다. 유사도가 아니라 항상 달력 값으로 비교되므로, 근접하지만 잘못된 날짜("1972-03-14" 대 "1972-03-24")는 겉보기에 높은 코사인이 아니라 명확한 불일치로 처리됩니다. 불리언 값도 마찬가지로 정확히 일치하거나 아니거나입니다.

LLM 판정자

유사도만으로는 판정하기 어려운 값 — 요약이나 설명 같은 모든 자유 텍스트 필드, 그리고 완전히 일치하지 않는 모든 숫자 — 은 judge model로 전송되며, judge model은 답변이 기준의 의미를 얼마나 잘 담아내는지 0–100점으로 평가합니다. 다르게 표현되었거나 더 간결한 정답에는 점수를 부여하고, 필드가 허용하는 경우 숫자에 부분 점수를 줍니다(분자량 273.37 대 273.35, 반감기 12 대 15). 반면 정확성이 중요한 경우에는 여전히 오답으로 처리합니다(출시 연도 2020 대 2023). judge가 없으면 자유 텍스트는 연속 유사도 점수로 대체되고, 완전히 일치하지 않는 숫자는 단순히 불일치로 처리됩니다.

엄격도 설정은 임베딩 임계값을 제어합니다: 값이 높을수록 다르게 작성된 두 값이 같은 것으로 간주되려면 더 유사해야 합니다. 엄격도, 선택적 판정 모델, 임베딩 모델은 모두 시나리오에 설정되며 — 채점할 때마다 선택하는 것이 아니므로 — 모든 모델이 동일하게 채점되어 점수가 비교 가능한 상태로 유지됩니다.

배열(항목 목록) 채점

목록 — 영화의 출연진, 약물의 부작용 — 은 모델 간 차이가 가장 큰 부분입니다: 작은 모델은 배우 4명을 찾는 반면 강력한 모델은 15명을 찾을 수 있습니다. 순서는 중요하지 않으며, 더 많은 올바른 항목을 찾는 것이 우선되어야 합니다. 따라서 배열은 위치별이 아니라 집합으로 채점됩니다:

각 후보 항목은 필드와 동일한 단계 순서로 가장 저렴한 것부터 참조 항목과 매칭됩니다: key 필드로, 그다음 동일한 텍스트로, 그다음 임베딩 유사도로, 마지막으로 — 의역된 나머지에 대해서는 — 남은 항목을 한 번에 정렬하는 단일 LLM 집합 정렬 호출로 매칭됩니다(scenario에 judge가 있는 경우에만 해당).
재현율은 포괄성에 보상을 줍니다 — 15개 중 15개를 찾는 것이 15개 중 4개보다 낫습니다.
정밀도는 지어낸 항목에 불이익을 줍니다 — 환각으로 추가된 행위자는 점수를 낮춥니다.
F1은 이 둘을 결합하며, 일치하는 각 쌍은 필드별로 채점되므로 “올바른 행위자, 잘못된 역할”도 여전히 감점 요인이 됩니다.

결과 행을 펼치면 어떤 항목이 일치했는지, 누락되었는지, 잘못 생성되었는지 정확히 확인할 수 있습니다.

점수 읽기

단일 숫자는 너무 많은 것을 감추므로, 모든 결과에는 세부 점수가 함께 제공됩니다:

완전성 — 모델이 참조가 채운 것을 채웠나요? (누락된 데이터는 이 점수를 낮춥니다)
정확성 — 채운 것 중에서 얼마나 맞았나요?
환각 — 참조가 뒷받침하지 않는 내용을 얼마나 지어냈나요?
전체 — 식별자(키) 필드에 더 큰 가중치를 부여한 가중 혼합입니다.

확장 가능한 행에는 필드별 세부 내역이 표시됩니다: 후보 대 참조, 사다리의 어느 단계에서 결정되었는지, 그리고 해당되는 경우 유사도가 표시됩니다.

시나리오가 모델을 두 번 이상 실행하면(반복), 각 실행이 개별적으로 채점되고 행에는 평균 품질과 일관성 범위(실행 중 최저–최고)가 표시됩니다 — 따라서 평균적으로는 정확하지만 들쭉날쭉한 모델을 쉽게 발견할 수 있습니다. 표시되는 출력은 품질 기준 중앙값 실행입니다.

비용 및 실행 내용

채점은 이미 저장된 결과에 대한 별도의 처리 과정으로, 다시 강화하지 않으므로 테스트 대상 모델에 대해 다시 비용을 지불하지 않습니다. 값을 비교하기 위해 텍스트를 임베딩하며(시나리오에 판정기가 있으면 판정기도 실행), 이는 사용량에 따라 크레딧을 차감합니다. 이는 매 실행이 끝날 때 자동으로 발생하며, 다시 채점할 때마다 반복됩니다. 조직에 구성된 임베딩 모델이 없으면(그리고 시나리오가 재정의를 설정하지 않으면), 채점은 여전히 실행되지만 정확 일치 방식으로만 대체되며(이 경우 다른 철자는 불일치로 계산됨), 이를 알려줍니다.

찾을 수 있는 위치

모델 관리 → 벤치마크에서 시나리오 편집기에 참조를 설정하고 확인하세요(그리고 판정 모델, 임베딩 모델, 엄격도를 거기서 선택하세요). 이후부터는 모든 실행이 성공한 결과를 자동으로 채점하며, 정렬 가능한 품질 열이 추가 단계 없이 채워집니다. 참조나 채점 구성을 편집한 후 다시 채점하려면 결과 다시 채점(헤더 버튼 또는 ··· 메뉴)을 사용하세요.

모델 벤치마크

저장된 시나리오, 실행, 그리고 나란히 비교하는 출력 및 비용.

시맨틱 ID

동등성 매칭도 지원하는 임베딩 해결 단계입니다.