다국어 보강 - Entity Enricher 문서

다국어 보강

Entity Enricher는 최대 40개 언어로 강화 결과를 동시에 생성할 수 있습니다. 다국어 필드는 언어를 키로 하는 JSON 객체로 저장되며 — 이 형식은 이식성이 뛰어나고, 조회가 가능하며, 모든 주요 데이터베이스와 호환됩니다.

스키마 편집기: 다국어 전환

스키마 편집기에서 임의의 문자열 또는 문자열 배열 속성에 다국어 플래그를 토글하세요. 활성화되면 LLM이 일반 값 대신 언어 키가 지정된 객체로 감싼 값을 반환합니다.

작동 방식

1
필드를 다국어로 표시
스키마 편집기에서 문자열 또는 배열 속성의 다국어 체크박스를 선택하세요. 이 플래그는 JSON 스키마에 multilingual: true로 저장됩니다.
2
대상 언어 선택
사이드바 옵션에서 지원되는 40개 언어 중 하나 이상을 선택하세요. 보강 프롬프트는 LLM이 선택한 각 언어로 값을 생성하도록 지시합니다. 처음 선택한 언어가 기본 언어입니다: “Primary” 배지로 강조 표시되며, 다국어가 아닌 모든 문자열 필드(설명, 이름 등 multilingual: true로 표시되지 않은 필드)에 사용됩니다. 다른 칩을 기본으로 승격하려면 해당 칩의 버튼을 사용하세요. 또한 백엔드는 선택에 포함되지 않은 언어 키를 LLM이 생성하더라도 걸러냅니다.
3
LLM이 언어별로 키가 지정된 출력을 반환합니다
동적 Pydantic 모델은 다국어 필드를 dict[str, T]로 감싸며, 키는 ISO 639-1 언어 코드이고 값은 필드 타입과 일치합니다.

데이터 형식

다국어 값은 언어 코드를 키로 하는 JSON 객체로 저장됩니다. 이 형식은 이식성, 쿼리 용이성, 저장 효율성 덕분에 다른 대안보다 선택되었습니다.

다국어 문자열
스키마 속성
"description": {
"type": "string",
"multilingual": true
}
보강 출력
"description": {
"en": "A global pharma company",
"fr": "Une entreprise pharma mondiale",
"ar": "شركة أدوية عالمية"
}
다국어 배열
스키마 속성
"indications": {
"type": "array",
"items": { "type": "string" },
"multilingual": true
}
보강 출력
"indications": {
"en": ["pain relief", "fever"],
"fr": ["anti-douleur", "fièvre"],
"ar": ["تخفيف الألم", "حمى"]
}
비다국어 필드

multilingual: true가 없는 필드는 일반 값으로 반환됩니다. 식별자, 코드, URL, 날짜 및 숫자는 일반적으로 다국어가 아닌 상태로 유지됩니다.

"atc_code": "N02BE01",
"founded_year": 1973,
"website": "https://example.com"

이 형식을 사용하는 이유는?

다국어 배열에는 두 가지 접근 방식이 있습니다. Entity Enricher는 Format A(언어 키 기반 객체)를 사용하는데, 이는 변환 없이 모든 주요 데이터베이스에서 그대로 작동하는 유일한 형식이기 때문입니다.

기준A 언어 키 객체B 현지화된 항목 배열
구조{"en": [...], "fr": [...]}[{"en": "x", "fr": "y"}, ...]
한 가지 언어 조회직접 액세스
data -> 'field' -> 'en'
반복이 필요합니다
jsonb_array_elements + extract
언어 추가객체에 키 하나 추가배열의 모든 항목 업데이트
스칼라 값과 일관됩니다 — 동일한 {"en": "...", "fr": "..."} 패턴아니요 — 문자열과 배열의 형태가 다릅니다
데이터베이스 이식성모든 주요 데이터베이스모든 주요 데이터베이스

데이터베이스 쿼리 예시

언어 키 형식은 JSON 열을 지원하는 모든 주요 데이터베이스에서 기본적으로 쿼리할 수 있습니다.

PostgreSQL
-- Get English description
SELECT structured_output -> 'description' -> 'en' FROM enrichment_records;
-- Search within a multilingual array
SELECT * FROM enrichment_records
WHERE structured_output -> 'indications' -> 'en' ? 'pain relief';
MySQL 8+
-- Get French description
SELECT JSON_EXTRACT(structured_output, '$.description.fr') FROM enrichment_records;
MongoDB
// Project only Arabic values
db.records.find({}, { "description.ar": 1, "indications.ar": 1 })
SQL Server
-- Get German description
SELECT JSON_VALUE(structured_output, '$.description.de') FROM enrichment_records;

지원되는 언어

40개 언어를 사용할 수 있습니다. 인리치먼트를 실행할 때 원하는 조합을 선택하세요.

글로벌 언어
enEnglish
zhChinese
hiHindi
esSpanish
arArabic
frFrench
bnBengali
ptPortuguese
ruRussian
jaJapanese
deGerman
urUrdu
viVietnamese
trTurkish
koKorean
taTamil
mrMarathi
teTelugu
paPunjabi
yueCantonese
itItalian
유럽 언어
plPolish
ukUkrainian
roRomanian
nlDutch
elGreek
csCzech
huHungarian
svSwedish
srSerbian
bgBulgarian
hrCroatian
skSlovak
daDanish
fiFinnish
noNorwegian
ltLithuanian
slSlovenian
lvLatvian
etEstonian

어떤 필드를 다국어로 지정해야 할까요?

다국어로 표시
  • 이름 (회사, 제품, 도시, 국가)
  • 설명 및 요약
  • 의학/과학 용어
  • 상태 레이블 (“승인됨”, “활성”)
  • 범주 레이블과 태그
  • 지침 및 권장 사항
다국어 아님으로 유지
  • 기술 식별자(UUID, ID)
  • 표준화된 코드 (ATC, CAS, ISO)
  • 약어 (FDA, EMA, WHO)
  • 숫자, 날짜, 백분율
  • URL, 이메일, 전화번호
  • 불리언 플래그

유효한 필드 유형

다국어 플래그는 특정 속성 유형에서만 유효합니다. 스키마 편집기가 이를 자동으로 적용합니다.

속성 유형다국어 지원?출력 형식
stringdict[str, str]
number / integerdict[str, float]
booleandict[str, bool]
기본형 배열dict[str, list[str]]
object아니요대신 객체 내부의 개별 필드를 표시하세요
객체 배열아니요대신 항목 내부의 개별 필드를 표시하세요
$ref아니요대신 참조된 엔터티 내부의 필드를 표시하세요

강화 파이프라인 통합

다국어 지원이 보강 파이프라인의 모든 단계에 녹아 있습니다.

스키마
선택한 필드에 multilingual: true
적용
프롬프트 빌더
언어
지침 + 예시 주입
동적 model
str → dict[str, str]
Pydantic 검증
JSONB 저장소
출력의 언어 키
객체
다중 전문 분야: 다중 전문 분야 전략을 사용하면 각 전문 분야가 자체 프롬프트로 다국어 지침을 받습니다. 필드는 전문 분야별로 독립적으로 번역된 후 최종 출력으로 병합됩니다.

퓨전의 다국어 필드

여러 모델의 결과를 융합할 때 다국어 필드는 언어별로 비교됩니다.

시나리오해석
모델들이 영어에는 동의하지만 프랑스어에서는 차이를 보입니다영어는 그대로 전달되고, 프랑스어는 다수결 또는 중재를 통해 언어별로 해결됩니다
한 모델은 아랍어를 지원하고 다른 모델은 지원하지 않습니다null이 아닌 값 우선 (아랍어 유지)
다국어 배열의 길이가 모델마다 다릅니다언어별 모든 항목의 합집합