Entity Enricher는 두 종류의 지식을 구조화되고 검증된 데이터로 전환합니다: 대규모 언어 모델이 이미 알고 있는 지식과, 여러분의 아카이브에 읽히지 않은 채 남아 있는 지식 — PDF 문서, 이미지, 오디오 녹음, 오피스 파일 등입니다. 추출된 모든 객체는 안정적인 시맨틱 아이덴티티를 부여받으므로, 강화 결과가 일회성 결과의 더미가 아니라 일관된 정보 시스템으로 축적됩니다.
LLM을 인간 지식의 정수라고 생각하세요 — 수십억 개의 문서, 데이터베이스, 웹 페이지가 질의 가능한 신경망으로 압축된 것입니다. Entity Enricher는 이 지식을 귀하의 데이터 모델에 맞는 구조화되고 신뢰할 수 있는 형식으로 추출하는 인터페이스를 제공합니다. 그리고 최신 모델은 PDF를 읽고, 이미지를 보고, 오디오를 들을 수 있기 때문에, 동일한 인터페이스로 귀하 자신의 콘텐츠에서 구조를 추출합니다: 귀사가 수년간 축적해 온 계약서, 보고서, 스캔본, 녹음물 말입니다.
모든 강화는 이 소스 중 하나 또는 둘 다를 활용합니다. 이들은 서로 보완합니다. 모델은 세상에 대한 지식과 추론을 제공하고, 문서는 조직 내부에만 존재하는 사실을 제공합니다.
회사, 약물, 장소, 제품, 규정 등 모델이 학습 중에 습득한 모든 공개 정보입니다. 식별자(이름, 웹사이트)와 스키마를 제공하면 나머지를 채웁니다: 업종, 설립 연도, 본사, 작용 기전. 문서는 필요하지 않습니다.
데이터베이스에 들어가지 못한 지식: 계약서, 송장, 점검 보고서, 스캔한 양식, 제품 사진, 녹음된 통화. 이를 보강에 첨부하면 모델이 해당 콘텐츠에서 스키마의 필드를 직접 추출합니다 — 수동 OCR, 전사, 복사-붙여넣기가 필요 없습니다.
지원되는 형식과 전달 모드는 문서 첨부파일을 참조하세요.
스키마는 단순한 데이터 구조가 아닙니다 — 인류의 집단 지식이나 특정 문서에 던지는 정형화된 질문입니다. companyName, industry, headquarters 같은 속성으로 스키마를 정의하면, 본질적으로 이렇게 묻는 것입니다: “회사 식별자가 주어지면, 그 이름과 어떤 산업에 종사하는지, 그리고 본사가 어디에 있는지 알려줘.”
| 스키마 개념 | 목적 |
|---|---|
| 속성 | 추출하려는 구체적인 사실 |
| 유형 | 예상하는 형식(string, number, object, array) |
| 전문 영역 | 어떤 전문가가 답변해야 하는지(제약, 재무, 지리)입니다 |
| 검색 키 | 지식 베이스에서 엔티티를 찾는 데 도움이 되는 식별자 |
| 시맨틱 ID | 동일한 실세계 객체가 여러 보강 작업과 다른 시스템에서 인식되도록 하는, 조직 범위의 안정적인 식별자입니다 |
| 유지 | 입력에서 변경 없이 그대로 전달할 필드 |
| 다국어 | 운영하는 모든 언어로 제공되는 필드 — 나중에 덧붙인 번역 단계가 아닌 핵심 기능입니다 |
LLM은 새로운 유형의 지식 베이스입니다. 저장된 레코드에서 정확히 일치하는 항목을 반환하는 기존 데이터베이스와 달리, LLM은 맥락을 이해하고 불완전한 데이터를 추론하며 패턴에서 일반화합니다. 또한 더 이상 텍스트 전용이 아닙니다. 비전 지원 모델은 이미지와 스캔된 페이지를 읽고, PDF 지원 모델은 전체 문서를 처리하며, 오디오 지원 모델은 녹음을 청취합니다.
Entity Enricher는 여러 LLM을 서로 다른 지식 관점으로 취급합니다. 각 제공자는 고유한 강점을 지니고 있습니다 — Claude는 미묘한 추론에 뛰어나고, GPT-4는 폭넓은 지식을 갖추고 있으며, Gemini는 다국어 심층 지원을 제공하고, 로컬 Ollama 모델은 데이터를 비공개로 유지합니다.
동일한 보강을 여러 제공자에서 실행하면 신뢰도를 위해 답변을 비교하고, 여러 전문가의 합의를 집계하며, 비용과 품질의 균형을 맞출 수 있습니다. 자세한 내용은 Multi-Model Enrichment에서 확인하세요.
보강은 검색 키를 사용해 엔터티를 식별하고, LLM과 첨부된 문서에서 관련 지식을 검색하며, 스키마에 따라 응답을 구조화하고, 출력이 예상 유형과 일치하는지 검증하고, 지정된 위치에 원본 데이터를 보존한 뒤, 마지막으로 각 객체에 안정적인 시맨틱 ID를 부여해 정체성을 해석하는 과정입니다.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }모든 강화는 독립적입니다. 두 번 요청하면 동일한 실제 대상이 서로 다르게 표현되어 돌아올 수 있습니다 — 어느 날은 “Acme Inc.”, 다음 날은 “Acme Incorporated”; 약물 부작용이 언어나 모델에 따라 “Headache”, “Céphalée” 또는 “Cephalalgia”로 표시됩니다. 강화된 데이터를 실제로 기반으로 삼으려면 동일한 엔티티에 대한 안정적인 식별자가 필요합니다.
시맨틱 ID는 Entity Enricher가 객체의 키 필드로부터 할당하는 조직 범위의 식별자로, 정확한 철자가 아니라 의미로 매칭됩니다. 동일한 엔터티는 강화, 모델, 언어, 시간에 관계없이 동일한 ID로 확인됩니다. 이는 모델 실행 후 자동으로 할당되며 — LLM이 만들어내는 것이 아니며 — 전체 엔터티, 중첩 객체, 리스트의 각 항목 등 어떤 객체에도 존재할 수 있습니다.
cpt_abc123이것이 바로 보강의 흐름을 성장시키고 질의할 수 있는 정보 시스템으로 바꿔주는 것입니다:
| 사용 | 활용 방법 |
|---|---|
| 결합 키 | 보강된 레코드를 데이터 웨어하우스, CRM, 마스터 데이터 시스템과 매칭하기 위한 안정적인 키입니다 |
| 중복 제거 | 여러 배치, 모델 또는 여러 해의 문서에서 생성된 유사 중복 항목을 하나의 식별자로 병합 |
| 조정 | 알려진 시맨틱 ID를 다시 전달하면 새 엔티티를 생성하는 대신 이미 추적 중인 엔티티에 새로운 사실이 연결됩니다 |
| 지식 그래프 | 여러 record에서 참조되는 객체는 하나의 노드로 수렴하며, 관계를 쿼리할 수 있게 됩니다 |
해석이 어떻게 작동하는지(정확 일치 캐시, 임베딩, 유사도 임계값)는 시맨틱 ID에서 다룹니다.
대부분의 회사는 한 번도 구조화된 적 없는 아카이브 위에 앉아 있습니다. 계약서와 보고서가 담긴 공유 드라이브, 스캔한 종이 문서, 이메일 첨부파일, 녹화된 회의 등입니다. 그 아카이브는 바로 데이터베이스입니다. 단지 행과 열이 부여되지 않았을 뿐입니다. 첨부파일(지식 소스로서의 문서), 배치 강화(병렬 처리), 시맨틱 ID(전체 코퍼스에 걸친 중복 제거)를 결합하면 이것이 하나의 데이터베이스로 변합니다.
워크플로에 대한 자세한 내용은 배치 강화를 참조하세요.
구조화된 지식은 텍스트에만 존재하지 않습니다. Entity Enricher는 여러분의 아카이브에 실제로 담긴 형식을 받아들이고, 각각을 읽을 수 있는 모델로 라우팅합니다.
두 가지 전달 모드가 이를 가능하게 합니다. 바이너리 모드에서는 원본 바이트가 모델로 전달되어 변환 과정에서 아무것도 손실되지 않습니다 — 표의 레이아웃, 사진의 세부 사항, 화자의 말까지. 인라인 텍스트 모드에서는 업로드 시 텍스트가 한 번 추출되어 모든 프롬프트에 인라인으로 삽입되며, 이는 모델의 기능과 관계없이 모든 모델에서 작동합니다.
기능 인식 라우팅은 파일이 실제로 처리할 수 있는 모델에만 전달되도록 합니다 — 강화가 실패한 후가 아니라 시작되기 전에 경고를 받습니다. 형식과 모드는 문서 첨부 파일에 자세히 설명되어 있습니다.
모든 지식이 동등하지는 않습니다. 약물 작용 기전에 관한 질문은 기업 구조에 관한 질문과는 다른 전문성을 요구합니다. 전문 분야는 스키마 속성을 LLM 내의 적절한 전문가에게 라우팅하여 각 분야에 관련된 지식 패턴을 활성화합니다.
다중 전문 분야 전략을 사용하면 각 분야가 관련 스키마 속성만을 포함한 전용 LLM 호출을 받아 출력 품질이 크게 향상됩니다.
LLM은 실수를 할 수 있습니다. Entity Enricher는 오류를 자동으로 잡아내고 수정하기 위해 여러 계층의 품질 관리를 구현합니다:
검색 키는 LLM이 잘못된 엔티티에 대해 환각을 일으키는 것을 방지합니다. 두 가지 역할을 합니다:
강화 프롬프트는 다음을 강조합니다: “당신은 이 검색 키로 식별된 특정 엔터티를 강화하고 있습니다.”
검색 키와 시맨틱 ID는 정체성의 양면입니다. 검색 키는 강화 중에 LLM이 올바른 엔티티를 찾도록돕고, 시맨틱 ID는 강화 후에 시스템이 의존하는 지속적인 정체성을 부여합니다.
보강이 시작되기 전에, 선택적 사전 분류 단계로 엔티티가 실제로 스키마 타입과 일치하는지 확인할 수 있습니다. 이는 엔티티가 일치하지 않을 때의 환각을 방지합니다 — 예를 들어 Titan이 실제로는 위성인데 “Planet” 스키마로 “Titan”을 보강하는 경우입니다.
LLM 호출에는 비용이 발생합니다. Entity Enricher는 토큰 사용량, 제공자별 비용, 보강별 비용, 조직 단위 지출을 추적합니다. 이를 통해 예산 모니터링, 제공자 비교(비용 대 품질), 그리고 단순한 필드에는 더 저렴한 모델을 사용하는 등의 최적화 결정을 내릴 수 있으며, 이는 수천 건의 문서로 이루어진 아카이브를 처리할 때 가장 중요합니다.
| 구성 요소 | 개념적 역할 |
|---|---|
| 스키마 | 질문하려는 내용 |
| LLM 제공자 | 다양한 지식 관점 |
| 첨부 파일 | 지식 소스로서의 아카이브(PDF, 이미지, 오디오, 오피스) |
| 검색 키 | 강화 중 엔터티 신원 앵커 |
| 시맨틱 ID | 강화 후에도 안정적인 아이덴티티 — 정보 시스템의 근간 |
| 전문 영역 | 전문가 라우팅 |
| 전략 | LLM 호출을 오케스트레이션하는 방법 |
| 배치 처리 | 아카이브 규모의 병렬 enrichment |
| 다국어 | 귀하가 운영하는 모든 언어에서 동일한 사실 |
| 검증 | 품질 보증 |
| 유지 | 데이터 무결성 보호 |