사전 분류는 강화가 시작되기 전에 엔터티가 예상 스키마 유형과 일치하는지 확인합니다. 이 선택적 단계는 엔터티가 스키마와 일치하지 않을 때 환각과 토큰 낭비를 방지합니다.
LLM은 도움을 주려는 성향이 강합니다. 스키마에 따라 엔티티를 보강하도록 요청받으면, 엔티티가 스키마 유형과 전혀 일치하지 않더라도 구조화된 출력을 생성합니다. 이로 인해 그럴듯해 보이지만 완전히 틀린 환각 데이터가 생성됩니다.
스키마: “Planet” — 엔터티: “Titan”
LLM은 Titan을 행성으로 취급하여 데이터를 지어냅니다: 공전 주기, 대기 구성, 위성 수 — 모두 그럴듯해 보이지만 틀렸습니다. Titan은 실제로 토성의 위성입니다.
분류가 감지합니다: “불일치 — Titan은 행성이 아니라 위성입니다”
강화 모델은 이 컨텍스트를 받아 관련 없는 필드는 null로 설정하고, 실제로 엔터티에 해당하는 속성만 채웁니다.
분류는 보강 모델이 시작되기 전에 단일의 빠른 LLM 호출로 실행됩니다. 비용을 최소화하기 위해 저렴하고 빠른 모델(예: Claude Haiku 또는 GPT-4o Mini)을 사용합니다.
엔터티가 스키마 유형과 일치합니다. 높은 신뢰도로 강화가 진행됩니다.
엔터티가 스키마가 기대하는 것과 다른 유형입니다. 분류는 엔터티가 실제로 무엇인지 설명합니다.
엔터티를 확실하게 식별할 수 없습니다. LLM에 분류할 충분한 정보가 없습니다.
유효한 해석이 여러 개 존재합니다. 분류가 대안을 나열합니다.
분류는 순전히 참고용입니다. 어떤 이유로든(모델 오류, 시간 초과, 속도 제한) 분류 호출이 실패하면, 보강은 분류 컨텍스트 없이 정상적으로 진행됩니다. 이를 통해 선택적인 분류 단계가 보강 완료를 방해하지 않도록 보장합니다.
분류는 빠르고 저렴한 모델에서 실행되도록 설계되었습니다. 최소한의 페이로드(스키마 이름, 설명, 잘린 엔티티 데이터)를 전송하고 작은 구조화된 응답을 기대합니다. 일반적인 비용은 보강 자체의 일부에 불과하며, 정확도 향상을 위해 충분히 가치가 있습니다.
UI는 Server-Sent Events를 통해 분류 진행 상황을 실시간으로 표시합니다. 확인이 시작되면 classification_started 이벤트가 발생하고, 이어서 상태, 신뢰도, 엔터티 설명을 담은 classification_completed 이벤트가 발생합니다. 결과는 모델 결과 위에 배너로 표시됩니다.
분류 단계에서 강화를 취소하면 작업이 즉시 중지되며 강화 모델이 시작되지 않습니다. 불필요한 토큰이 소비되지 않습니다.
스키마 편집기 또는 배치 강화 사이드바에서 "분류" 드롭다운을 찾으세요. 빠르고 저렴한 모델(Claude Haiku, GPT-4o Mini 또는 유사 모델)을 선택하세요. 각 엔터티에 대해 강화가 시작되기 전에 분류가 자동으로 실행됩니다.
REST API를 사용할 때는 강화 요청에 모델의 복합 키(예: anthropic::claude-haiku-4-5)와 함께 classification_model 필드를 포함하세요.