AI 스키마 생성 - Entity Enricher 문서

AI 스키마 생성

AI를 사용해 샘플 데이터에서 구조화된 JSON 스키마를 생성하며, 자동 자가 수정과 지능형 후처리를 지원합니다.

작동 방식

스키마 생성은 원시 엔티티 데이터를, 강화 중 어떤 정보를 추출할지 정확히 정의하는 타입이 지정되고 주석이 달린 JSON 스키마로 변환합니다. 스키마를 직접 작성하는 대신, 샘플 JSON을 붙여넣으면 AI가 구조를 분석하고 타입을 추론하며 전문 영역을 할당하고 개선점을 제안합니다.

생성 파이프라인

  1. 입력 전처리 — 샘플 JSON이 분석됩니다. 현지화된 객체(예: {"en": "...", "fr": "..."})는 단일 값으로 축소되며, 속성 수에 따라 허용되는 전문 분야 수가 결정됩니다.
  2. 프롬프트 구성 — 데이터의 복잡성에 따라 적응형 시스템 프롬프트가 구축됩니다: 중첩 객체 포함 여부, 속성 개수, 다국어 필드 감지 여부.
  3. 자가 수정 기능이 있는 LLM 생성 — AI가 스키마를 생성합니다. 8가지 검증 규칙 중 하나라도 실패하면 오류가 AI로 다시 전송되어 수정되며, 최대 6번까지 시도합니다.
  4. 후처리 — 결정론적 규칙이 스키마를 정제합니다: nullable 필드 표시, 빈 검색 키 정리, 전문 분야 메타데이터 수집.
  5. 자동 저장 — 생성된 스키마는 콘텐츠 해싱을 사용해 자동으로 저장 및 중복 제거되므로 동일한 스키마가 중복되지 않습니다.

자체 수정 루프

자체 수정 루프는 스키마 생성을 신뢰할 수 있게 만드는 요소입니다. AI가 스키마를 생성한 후에는, 유형 정확성, 전문 도메인 할당, 참조 무결성, 데이터 완전성을 다루는 8가지 규칙을 검사하는 검증기를 거칩니다. 규칙 중 하나라도 실패하면 해당 오류 메시지가 AI에 다시 전송되어 다음 시도에서 문제를 수정할 수 있습니다.

자체 수정 예시

시도 1AI가 스키마를 생성합니다. 검증기가 감지합니다: revenue: 타입 불일치 — 입력은 숫자이지만 스키마는 'string'으로 지정됨
재시도무엇이 잘못되었는지에 대한 컨텍스트와 함께 오류가 AI로 다시 전송됩니다.
시도 2AI가 타입을 number로 수정합니다. 8가지 규칙을 모두 통과합니다. 스키마가 승인됩니다.

이 접근 방식은 프롬프트에서 AI에게 "타입에 주의하라"고 요청하는 것보다 훨씬 더 안정적입니다. 검증기는 구체적인 오류를 잡아내고 AI에게 이를 수정할 정확한 피드백을 제공합니다. 각 규칙에 대한 자세한 내용은 Validation Rules 가이드에서 확인하세요.

스키마에 포함되는 내용

생성된 스키마는 단순한 타입 정의 이상입니다. 각 속성에는 강화 프로세스를 안내하는 메타데이터가 포함됩니다:

유형

JSON 스키마 유형(string, number, integer, boolean, array, object)

설명

AI에게 어떤 정보를 찾아야 하는지 알려주는 맥락 설명입니다

expertise

어떤 전문 영역(재무, 규제 등)이 이 값을 제공하는지입니다

검색 키

이 필드가 엔터티를 식별(검색)하는지 배열을 중복 제거(병합)하는지 여부입니다

Nullable

필드가 null일 수 있는지 여부로, 선택적 데이터에 대한 불필요한 재시도를 방지합니다

다국어

필드를 여러 언어로 보강해야 하는지 여부입니다

유지

보강 중에 원래 값을 변경하지 않고 유지할지 여부입니다

예시

AI를 올바른 형식으로 안내하는 현실적인 예시 값입니다

전문 영역 감지

AI는 의미론적 의미에 따라 스키마 속성을 전문 영역으로 그룹화합니다. 예를 들어 제약 회사 스키마에는 “Financial Analyst”, “Regulatory Expert”, “Corporate Information” 같은 영역이 있을 수 있습니다. 이러한 영역은 multi-expertise 전략이 병렬로 전문화된 LLM 호출을 실행하여 더 심층적인 결과를 얻는 데 사용됩니다.

도메인 수 제한

전문 분야 수는 과도한 분할을 방지하기 위해 데이터의 속성 수에 따라 자동으로 제한됩니다:

속성 5개
도메인 1개
속성 12개
도메인 2개
속성 30개
도메인 5개
속성 60개
도메인 10개

후처리

AI가 유효한 스키마를 생성한 후, 세 가지 결정론적 후처리 단계가 실제 입력 데이터를 기반으로 스키마를 다듬습니다:

Nullable 감지

입력에서 null 값을 가진 필드는 자동으로 nullable로 표시되므로, AI가 이를 채우려고 재시도를 낭비하지 않습니다.

빈 검색 키 지우기

빈 값(null, 빈 문자열, 0)을 가진 필드는 엔티티를 식별하는 데 도움이 되지 않으므로 검색 키 플래그가 제거됩니다.

expertise 컬렉션

모든 고유 전문 영역이 메트릭 및 전략 구성을 위해 스키마에서 수집됩니다.

AI 스키마 편집

생성 후 자연어 지침을 사용하여 스키마를 수정할 수 있습니다. 명령을 입력하면 AI가 기존 스키마 구조를 유지하면서 변경을 적용합니다. 각 편집마다 추가 개선을 위한 5가지 제안도 생성됩니다.

편집 명령 예시

employee_count 정수 필드를 추가합니다
도시와 국가를 포함한 중첩 주소 객체를 생성합니다
모든 텍스트 필드에 프랑스어 설명 추가
$defs를 사용하여 모회사 참조를 정의합니다
website 필드를 nullable로 표시

AI 편집은 입력 데이터와 비교하지 않고 생성 규칙의 일부(타입 검사, 참조 무결성, 전문 분야 일관성)를 사용하여 검증됩니다. 필드를 의도적으로 추가하거나 제거할 수 있기 때문입니다.

AI 제안

스키마 생성과 AI 편집 모두 서로 다른 개선 범주를 다루는 5가지 맞춤 제안을 생성합니다:

데이터 완전성엔티티를 보강할 수 있는 누락된 필드
데이터 품질검증 패턴, 형식 제약
관계중첩 구조, $defs를 통한 엔티티 참조
국제화다국어 번역, 로케일 지원
비즈니스 컨텍스트도메인별 필드 및 전문성 그룹화

제안은 스키마 편집기에서 클릭 가능한 칩으로 표시됩니다 — 하나를 클릭하면 AI 편집 입력란이 자동으로 채워지고 적용됩니다.

다음 단계