비용 최적화 및 프롬프트 캐싱 - Entity Enricher 문서

비용 최적화

LLM 보강에서는 토큰이 곧 비용입니다. Entity Enricher는 정확도를 희생하지 않으면서 청구되는 토큰을 최대한 적게 보내도록 설계되었습니다 — 프롬프트 캐싱을 중심으로, 스키마 범위 지정, 스마트 게이팅, 낭비되는 재시도 감소가 이를 뒷받침합니다. 대부분은 자동으로 이루어지며, 별도의 설정이 필요하지 않습니다.

비용이 어디에 쓰이는지

모든 강화 호출은 입력 토큰(프롬프트, 스키마 및 첨부 문서), 출력 토큰(구조화된 결과), 그리고 — 활성화된 경우 — 웹 검색 쿼리에 대해 비용을 지불합니다. 가장 크고 반복적인 부분은 대개 입력입니다. 동일한 시스템 지침, 스키마 설명, 소스 문서가 호출마다 다시 전송됩니다. 이 공유 입력을 캐싱하는 것이 가장 큰 지렛대이므로 가장 먼저 다룹니다.

입력 토큰

프롬프트 + 스키마 + 첨부파일. 크기가 크고 호출 간에 매우 반복적입니다 — 캐싱과 범위 지정의 주요 대상입니다.

출력 토큰

구조화된 결과입니다. 각 모델에 실제로 담당하는 필드만 요청하여 간결하게 유지됩니다.

낭비된 지출

재시도 실패, 속도 제한 충돌, 잘못된 entity에 대한 enrichment. 비용을 치르는 대신 사전에 제거합니다.

프롬프트 캐싱

여러 전문 분야에 걸친 보강이 실행되면 동일한 엔티티에 대해 여러 번의 LLM 호출이 이루어집니다 — 전문 분야당 하나씩입니다. 이러한 호출은 모두 동일한 시작 컨텍스트를 공유합니다: 일반 시스템 지침과 첨부한 인라인 텍스트 문서입니다. Entity Enricher는 그 공유 접두부를 호출 전반에 걸쳐 바이트 단위로 동일하게 유지하고 캐시 가능한 것으로 표시하므로, 공급자는 이를 한 번만 저장하고 이후의 모든 호출에서 일반 입력 가격의 약 10분의 1로 다시 읽습니다.

캐시 적중이 청구 금액을 어떻게 바꾸는지

캐싱 없음

N개의 호출 각각은 전체 공유 컨텍스트를 전체 입력 가격으로 다시 전송합니다. expertise가 5개라는 것은 그 큰 공유 블록에 대해 다섯 번 비용을 지불한다는 의미입니다.

캐싱 사용

공유 블록은 캐시에 한 번 기록된 후, 나머지 네 번의 호출에서 입력 가격의 약 10%로 다시 읽힙니다. 추가되는 전문 도메인, 언어, 첨부 문서가 많아질수록 절감 효과가 커집니다.

캐시 워밍업

프로바이더 캐시는 이를 기록하는 첫 번째 요청이 완료된 후에만 읽을 수 있습니다. 모든 전문 영역 호출이 동시에 실행되면 어느 것도 준비된 캐시를 찾지 못하고 각각 중복해서 자체 복사본을 기록하게 됩니다. 따라서 캐싱이 적용될 때는 첫 번째 호출이 단독으로 실행되고, 캐시가 전파되도록 잠시 기다린 다음에야 나머지 호출이 병렬로 시작됩니다 — 그래서 각 호출은 다시 기록하는 비용을 치르는 대신 준비된 캐시를 읽습니다.

제공자와 첨부 파일 전반에서 작동합니다

Anthropic 모델은 공유 지침을 명시적으로 캐싱하고, 첨부된 PDF와 이미지는 그 자리에서 캐싱되며, 자동 접두사 캐싱을 지원하는 제공자(OpenAI, xAI, DeepSeek 등)는 동일한 바이트 단위의 접두사로 이점을 얻습니다. 캐싱은 입력이 클 때 — 많은 전문 분야, 여러 언어, 또는 첨부 문서가 있을 때 — 가장 큰 효과를 냅니다.

캐시되지 않은 것에 대해서만 비용을 지불합니다

비용 계산은 캐시를 인식합니다: 캐시된 입력 토큰은 모델의 캐시 읽기 요율(입력 요율의 일부)로 청구되며, 실제로 새로운 토큰만 정가로 청구됩니다. 절감액은 이론상으로만이 아니라 비용 분석에 직접 표시됩니다.

호출당 더 작은 페이로드

공유되는 접두부를 캐싱하는 것을 넘어, Entity Enricher는 각 호출에서 공유되지 않는 부분을 축소합니다.

전문 분야별 스키마 부분 집합화

각 expertise 호출은 전체 schema가 아니라 자신이 담당하는 schema 부분만 받습니다.

금융 전문가는 규제 필드를 절대 보지 않습니다. 필드가 적을수록 입출력 토큰이 줄어들며 — 응답은 병합 전에 해당 조각으로 다시 정리됩니다.

스키마 없는 텍스트 채널

문서가 첨부되어 있고 엄격한 구조화 출력 모드를 선택하지 않은 경우, 필드 목록은 읽기 가능한 프롬프트에만 존재합니다 — 전송 과정에서 스키마가 중복되지 않습니다.

이는 스키마 토큰을 완전히 제거하고 공유 프리픽스를 동일하게 유지합니다(그래서 캐싱이 더 잘 됩니다). 응답은 여전히 클라이언트 측에서 검증되며, 편차 발생 시 자동으로 자체 수정됩니다.

잘못된 대상을 보강하는 데 비용을 낭비하지 마세요

선택적 사전 classification은 비용이 큰 다중 model enrichment이 시작되기 전에, 저렴하고 빠른 단일 model을 실행해 entity가 실제로 schema와 일치하는지 확인합니다. “Planet” schema에 위성이 들어온 것과 같은 불일치는 여러 프리미엄 model에 걸친 전체 enrichment을 낭비하는 대신 몇 센트의 일부만으로 잡아냅니다.

차단 방식이 아니며(검사가 실패해도 강화는 그대로 진행됩니다) 취소할 수 있으므로, 건너뛰기로 결정한 모델에 대해 요금이 청구되는 일이 없습니다.

낭비되는 재시도 감소

실패한 검증 라운드는 아무 성과 없이 정가로 지불하는 LLM 호출입니다. 두 가지 메커니즘이 재시도를 드물고 생산적으로 유지합니다.

출력 정규화

일반적인 LLM 출력 특이 사항 — 배열이어야 하는 인덱스 키 객체, 'null' 문자열, 불필요한 이스케이프된 따옴표 — 은 검증이 실행되기 전에 수정됩니다.

검증 실패가 될 뻔한 많은 경우가 조용히 수정되므로, 유료 재시도를 전혀 유발하지 않습니다.

타겟형 자기 수정

재시도가 정말로 필요한 경우, 정확한 검증 오류가 모델에 다시 전달되어 해당 문제를 구체적으로 수정할 수 있습니다.

명확하고 구체적인 피드백은 모호한 안내로 시도를 낭비하는 대신 다음 시도가 성공할 가능성을 높입니다.

올바른 전략, 제어된 동시성

스키마에 맞는 전략을 선택하세요

단일 패스는 작은 스키마에 가장 저렴하고, 다중 전문성은 큰 스키마를 위해 설계되어 캐싱과 전문성별 범위 지정이 추가 호출 비용을 충분히 상쇄합니다. 각각을 언제 사용할지는 전략을 참조하세요.

속도 제한으로 비용이 큰 스래싱을 방지합니다

제공자별 동시성 제한은 작업이 제공자를 속도 제한 오류로 몰아붙이는 것을 방지하며, 그렇지 않으면 백오프와 재시도가 트리거되어 — 토큰과 실제 시간이 낭비됩니다. 조절된 안정적인 동시성이 429 오류와 싸우는 것보다 저렴합니다.

전체 비용 가시성

모든 강화는 캐시된 읽기를 포함한 실제 토큰 수와 그에 따른 비용을 기록합니다. 비용 대시보드는 이를 시계열 차트와 모델별 분석으로 변환하여, 지출이 정확히 어디로 가는지 확인하고 캐싱과 범위 지정이 제 역할을 하는지 검증할 수 있게 합니다. 표시되는 가격이 청구되는 가격입니다. 원시 제공자 비용과 플랫폼 마크업은 투명하게 공개됩니다.