핵심 개념 - Entity Enricher 문서

핵심 개념

Entity Enricher는 두 종류의 지식을 구조화되고 검증된 데이터로 전환합니다: 대규모 언어 모델이 이미 알고 있는 지식과, 여러분의 아카이브에 읽히지 않은 채 남아 있는 지식 — PDF 문서, 이미지, 오디오 녹음, 오피스 파일 등입니다. 추출된 모든 객체는 안정적인 시맨틱 아이덴티티를 부여받으므로, 강화 결과가 일회성 결과의 더미가 아니라 일관된 정보 시스템으로 축적됩니다.

핵심 아이디어

LLM을 인간 지식의 정수라고 생각하세요 — 수십억 개의 문서, 데이터베이스, 웹 페이지가 질의 가능한 신경망으로 압축된 것입니다. Entity Enricher는 이 지식을 귀하의 데이터 모델에 맞는 구조화되고 신뢰할 수 있는 형식으로 추출하는 인터페이스를 제공합니다. 그리고 최신 모델은 PDF를 읽고, 이미지를 보고, 오디오를 들을 수 있기 때문에, 동일한 인터페이스로 귀하 자신의 콘텐츠에서 구조를 추출합니다: 귀사가 수년간 축적해 온 계약서, 보고서, 스캔본, 녹음물 말입니다.

데이터 및 아카이브
부분 완료된 레코드
원시 식별자
PDF 및 스캔본
이미지 및 오디오
스키마 + LLM
“무엇을 알고 싶은가?”
정보 시스템
구조화된 프로필
분류
다국어 필드
안정적인 시맨틱 ID

두 가지 지식 소스

모든 강화는 이 소스 중 하나 또는 둘 다를 활용합니다. 이들은 서로 보완합니다. 모델은 세상에 대한 지식과 추론을 제공하고, 문서는 조직 내부에만 존재하는 사실을 제공합니다.

1. model의 학습 지식

회사, 약물, 장소, 제품, 규정 등 모델이 학습 중에 습득한 모든 공개 정보입니다. 식별자(이름, 웹사이트)와 스키마를 제공하면 나머지를 채웁니다: 업종, 설립 연도, 본사, 작용 기전. 문서는 필요하지 않습니다.

2. 비정형 아카이브

데이터베이스에 들어가지 못한 지식: 계약서, 송장, 점검 보고서, 스캔한 양식, 제품 사진, 녹음된 통화. 이를 보강에 첨부하면 모델이 해당 콘텐츠에서 스키마의 필드를 직접 추출합니다 — 수동 OCR, 전사, 복사-붙여넣기가 필요 없습니다.

지원되는 형식과 전달 모드는 문서 첨부파일을 참조하세요.

세 가지 핵심 요소

1. schema: 지식 베이스에 대한 질문

스키마는 단순한 데이터 구조가 아닙니다 — 인류의 집단 지식이나 특정 문서에 던지는 정형화된 질문입니다. companyName, industry, headquarters 같은 속성으로 스키마를 정의하면, 본질적으로 이렇게 묻는 것입니다: “회사 식별자가 주어지면, 그 이름과 어떤 산업에 종사하는지, 그리고 본사가 어디에 있는지 알려줘.”

스키마 개념목적
속성추출하려는 구체적인 사실
유형예상하는 형식(string, number, object, array)
전문 영역어떤 전문가가 답변해야 하는지(제약, 재무, 지리)입니다
검색 키지식 베이스에서 엔티티를 찾는 데 도움이 되는 식별자
시맨틱 ID동일한 실세계 객체가 여러 보강 작업과 다른 시스템에서 인식되도록 하는, 조직 범위의 안정적인 식별자입니다
유지입력에서 변경 없이 그대로 전달할 필드
다국어운영하는 모든 언어로 제공되는 필드 — 나중에 덧붙인 번역 단계가 아닌 핵심 기능입니다

2. LLM: 질의 가능한 지식, 멀티모달 리더

LLM은 새로운 유형의 지식 베이스입니다. 저장된 레코드에서 정확히 일치하는 항목을 반환하는 기존 데이터베이스와 달리, LLM은 맥락을 이해하고 불완전한 데이터를 추론하며 패턴에서 일반화합니다. 또한 더 이상 텍스트 전용이 아닙니다. 비전 지원 모델은 이미지와 스캔된 페이지를 읽고, PDF 지원 모델은 전체 문서를 처리하며, 오디오 지원 모델은 녹음을 청취합니다.

Entity Enricher는 여러 LLM을 서로 다른 지식 관점으로 취급합니다. 각 제공자는 고유한 강점을 지니고 있습니다 — Claude는 미묘한 추론에 뛰어나고, GPT-4는 폭넓은 지식을 갖추고 있으며, Gemini는 다국어 심층 지원을 제공하고, 로컬 Ollama 모델은 데이터를 비공개로 유지합니다.

동일한 보강을 여러 제공자에서 실행하면 신뢰도를 위해 답변을 비교하고, 여러 전문가의 합의를 집계하며, 비용과 품질의 균형을 맞출 수 있습니다. 자세한 내용은 Multi-Model Enrichment에서 확인하세요.

3. 인리치먼트: 구조화된 지식 추출

보강은 검색 키를 사용해 엔터티를 식별하고, LLM과 첨부된 문서에서 관련 지식을 검색하며, 스키마에 따라 응답을 구조화하고, 출력이 예상 유형과 일치하는지 검증하고, 지정된 위치에 원본 데이터를 보존한 뒤, 마지막으로 각 객체에 안정적인 시맨틱 ID를 부여해 정체성을 해석하는 과정입니다.

입력
{ "name": "Novartis", "website": "novartis.com" }
키 추출 → LLM 질의 → 검증 → 신원 확인
출력
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

enrichment에서 정보 시스템으로

모든 강화는 독립적입니다. 두 번 요청하면 동일한 실제 대상이 서로 다르게 표현되어 돌아올 수 있습니다 — 어느 날은 “Acme Inc.”, 다음 날은 “Acme Incorporated”; 약물 부작용이 언어나 모델에 따라 “Headache”, “Céphalée” 또는 “Cephalalgia”로 표시됩니다. 강화된 데이터를 실제로 기반으로 삼으려면 동일한 엔티티에 대한 안정적인 식별자가 필요합니다.

시맨틱 ID는 Entity Enricher가 객체의 키 필드로부터 할당하는 조직 범위의 식별자로, 정확한 철자가 아니라 의미로 매칭됩니다. 동일한 엔터티는 강화, 모델, 언어, 시간에 관계없이 동일한 ID로 확인됩니다. 이는 모델 실행 후 자동으로 할당되며 — LLM이 만들어내는 것이 아니며 — 전체 엔터티, 중첩 객체, 리스트의 각 항목 등 어떤 객체에도 존재할 수 있습니다.

강화 실행 #1
“Acme Inc.”
동일한 시맨틱 ID
cpt_abc123
실행 #2 — 이후, 다른 모델 또는 언어
“Acme Incorporated”

이것이 바로 보강의 흐름을 성장시키고 질의할 수 있는 정보 시스템으로 바꿔주는 것입니다:

사용활용 방법
결합 키보강된 레코드를 데이터 웨어하우스, CRM, 마스터 데이터 시스템과 매칭하기 위한 안정적인 키입니다
중복 제거여러 배치, 모델 또는 여러 해의 문서에서 생성된 유사 중복 항목을 하나의 식별자로 병합
조정알려진 시맨틱 ID를 다시 전달하면 새 엔티티를 생성하는 대신 이미 추적 중인 엔티티에 새로운 사실이 연결됩니다
지식 그래프여러 record에서 참조되는 객체는 하나의 노드로 수렴하며, 관계를 쿼리할 수 있게 됩니다

해석이 어떻게 작동하는지(정확 일치 캐시, 임베딩, 유사도 임계값)는 시맨틱 ID에서 다룹니다.

수십 년의 아카이브 발굴

대부분의 회사는 한 번도 구조화된 적 없는 아카이브 위에 앉아 있습니다. 계약서와 보고서가 담긴 공유 드라이브, 스캔한 종이 문서, 이메일 첨부파일, 녹화된 회의 등입니다. 그 아카이브는 바로 데이터베이스입니다. 단지 행과 열이 부여되지 않았을 뿐입니다. 첨부파일(지식 소스로서의 문서), 배치 강화(병렬 처리), 시맨틱 ID(전체 코퍼스에 걸친 중복 제거)를 결합하면 이것이 하나의 데이터베이스로 변합니다.

파일 보관
강화에 첨부
추출 질문으로서의 스키마
검증된 구조화된 record
시맨틱 정체성 및 중복 제거
데이터베이스

워크플로에 대한 자세한 내용은 배치 강화를 참조하세요.

텍스트를 넘어서: 멀티모달 소스

구조화된 지식은 텍스트에만 존재하지 않습니다. Entity Enricher는 여러분의 아카이브에 실제로 담긴 형식을 받아들이고, 각각을 읽을 수 있는 모델로 라우팅합니다.

PDF 문서
레이아웃, 표, 그림이 포함된 전체 문서 — PDF를 지원하는 모델이 기본적으로 읽습니다
이미지
사진, 스캔, 다이어그램, 제품 사진 — 비전 모델이 해석하며 별도의 OCR 단계가 필요 없습니다
오디오
녹음된 통화, 회의, 음성 메모 — 오디오 지원 모델이 직접 청취합니다
Office 및 텍스트
Word, Excel, PowerPoint, HTML, CSV, Markdown — 서버 측에서 텍스트를 추출하여 인라인 처리합니다

두 가지 전달 모드가 이를 가능하게 합니다. 바이너리 모드에서는 원본 바이트가 모델로 전달되어 변환 과정에서 아무것도 손실되지 않습니다 — 표의 레이아웃, 사진의 세부 사항, 화자의 말까지. 인라인 텍스트 모드에서는 업로드 시 텍스트가 한 번 추출되어 모든 프롬프트에 인라인으로 삽입되며, 이는 모델의 기능과 관계없이 모든 모델에서 작동합니다.

기능 인식 라우팅은 파일이 실제로 처리할 수 있는 모델에만 전달되도록 합니다 — 강화가 실패한 후가 아니라 시작되기 전에 경고를 받습니다. 형식과 모드는 문서 첨부 파일에 자세히 설명되어 있습니다.

전문 영역: 적합한 전문가에게 문의하기

모든 지식이 동등하지는 않습니다. 약물 작용 기전에 관한 질문은 기업 구조에 관한 질문과는 다른 전문성을 요구합니다. 전문 분야는 스키마 속성을 LLM 내의 적절한 전문가에게 라우팅하여 각 분야에 관련된 지식 패턴을 활성화합니다.

pharmaceutical
약물명, 작용 기전, 적응증, 규제 상태
business_classification
산업 코드, 회사 유형, 시장 세그먼트
geographic
위치, 지역, 국가별 정보
financial
매출, 시가총액, 투자 라운드
temporal
날짜, 기간, 역사적 사건
regulatory
승인, 라이선스, 규정 준수 상태

다중 전문 분야 전략을 사용하면 각 분야가 관련 스키마 속성만을 포함한 전용 LLM 호출을 받아 출력 품질이 크게 향상됩니다.

품질 관리

검증 및 자체 수정

LLM은 실수를 할 수 있습니다. Entity Enricher는 오류를 자동으로 잡아내고 수정하기 위해 여러 계층의 품질 관리를 구현합니다:

  1. 유형 검증 — 출력이 schema 유형(문자열, 숫자, 부울 등)과 일치하는지 확인합니다.
  2. 전문 분야 검증 — 모든 전문 분야가 정의되어 있고 속성을 포함하는지 확인합니다
  3. 자체 수정 — 검증이 실패하면 오류가 LLM으로 다시 전송되어 자동으로 수정됩니다 (최대 5회 재시도)
  4. 보존 로직 — 보존된 필드의 원래 값이 보강 후 복원되어 데이터 무결성을 보장합니다

검색 키: 강화 중 정체성 고정

검색 키는 LLM이 잘못된 엔티티에 대해 환각을 일으키는 것을 방지합니다. 두 가지 역할을 합니다:

  • 검색 키 (이름, 웹사이트) — LLM이 올바른 엔터티를 찾도록 돕는 조회 식별자입니다
  • 병합 키 (배열의 product_name) — 여러 모델의 결과를 병합할 때 배열 항목을 일치시키기 위한 중복 제거 키

강화 프롬프트는 다음을 강조합니다: “당신은 이 검색 키로 식별된 특정 엔터티를 강화하고 있습니다.”

검색 키와 시맨틱 ID는 정체성의 양면입니다. 검색 키는 강화 중에 LLM이 올바른 엔티티를 찾도록돕고, 시맨틱 ID는 강화 후에 시스템이 의존하는 지속적인 정체성을 부여합니다.

사전 분류

보강이 시작되기 전에, 선택적 사전 분류 단계로 엔티티가 실제로 스키마 타입과 일치하는지 확인할 수 있습니다. 이는 엔티티가 일치하지 않을 때의 환각을 방지합니다 — 예를 들어 Titan이 실제로는 위성인데 “Planet” 스키마로 “Titan”을 보강하는 경우입니다.

비용 인식

LLM 호출에는 비용이 발생합니다. Entity Enricher는 토큰 사용량, 제공자별 비용, 보강별 비용, 조직 단위 지출을 추적합니다. 이를 통해 예산 모니터링, 제공자 비교(비용 대 품질), 그리고 단순한 필드에는 더 저렴한 모델을 사용하는 등의 최적화 결정을 내릴 수 있으며, 이는 수천 건의 문서로 이루어진 아카이브를 처리할 때 가장 중요합니다.

요약

구성 요소개념적 역할
스키마질문하려는 내용
LLM 제공자다양한 지식 관점
첨부 파일지식 소스로서의 아카이브(PDF, 이미지, 오디오, 오피스)
검색 키강화 중 엔터티 신원 앵커
시맨틱 ID강화 후에도 안정적인 아이덴티티 — 정보 시스템의 근간
전문 영역전문가 라우팅
전략LLM 호출을 오케스트레이션하는 방법
배치 처리아카이브 규모의 병렬 enrichment
다국어귀하가 운영하는 모든 언어에서 동일한 사실
검증품질 보증
유지데이터 무결성 보호

다음 단계