같은 종류의 엔터티를 반복해서 보강하다 보면, 같은 회사, 같은 약물 부작용, 같은 사람처럼 동일한 현실 세계의 대상을 매번 조금씩 다른 표현으로 계속 다시 발견하게 됩니다. 시맨틱 ID는 Entity Enricher가 객체의 핵심 필드로부터 부여하는 안정적인 조직 범위 식별자로, 이러한 유사 중복 항목이 그룹화, 중복 제거, 조인이 가능한 하나의 정체성으로 통합됩니다.
객체의 정체성은 키 필드로 구성되며, 하나 또는 여러 개일 수 있습니다. 두 가지 예시:
name을 키로 하는 부수 효과입니다실행과 언어에 따라 Headache, Céphalée, Cephalalgia로 나타납니다. 하나의 키 필드, 세 가지 표기, 하나의 실제 개념입니다.
이름 + 국가로 키가 지정된 회사Acme Inc. · United States와 Acme Incorporated · United States는 같은 회사이지만, Acme Inc. · Germany는 다른 회사입니다. 두 번째 키가 이를 구분해 주며, 그래서 하나의 객체가 여러 키를 가질 수 있습니다.
단순 문자열 매칭은 이 모든 경우에 실패하지만, 사람은 어느 것이 동일한지 압니다. 시맨틱 ID는 그러한 판단을 자동으로 인코딩합니다.
string 속성(기본 이름은 id)으로, 불투명하고 안정적인 식별자를 담습니다.preserve) 필드로, 항상 문자열이며, 키가 아니고, 다국어가 아니며, 객체당 최대 하나입니다.manufacturer), 또는 배열의 각 항목(예: 각 side_effect).모델이 결과를 반환하면 Entity Enricher는 각 시맨틱 ID를 네 단계로 해석합니다 — 비용이 가장 낮은 것부터:
“Acme Inc.”와 “Acme Incorporated”가 서로 가깝게 배치됩니다.0.92, 속성별 조정 가능)을 초과하는 점수를 받으면 해당 개념의 ID가 재사용됩니다. 그렇지 않으면 완전히 새로운 ID가 생성되어 다음을 위해 저장됩니다.임계값 트레이드오프: 임계값이 높을수록 더 엄격하고(우발적 병합 감소), 낮을수록 더 느슨합니다(더 공격적인 중복 제거). 기본값 0.92가 과도하게 병합하거나 부족하게 병합할 때 property별로 조정하세요.
ID가 생성되는지는 해당 객체의 입력에 이미 존재하는지에 따라 달라집니다. 이것이 왕복(round-trip)을 가능하게 합니다: 한 번 보강하여 ID를 얻은 다음, 이후 실행에서 알려진 ID를 다시 전달하여 동일한 정체성에 새로운 정보를 붙일 수 있습니다 — 더 저렴하고 모호하지 않습니다.
전송하는 객체에 이미 시맨틱 ID가 있으면 조회로 처리됩니다. ID는 그대로 유지되고, 레코드는 기존 개념에 연결되며, 임베딩이 없습니다 — 비용도, 일치 또는 생성도 없습니다. 플랫폼에 "이 객체는 이미 우리 데이터베이스에서 식별되었습니다"라고 알려주는 것입니다.
객체에 시맨틱 ID가 없으면 플랫폼은 위의 네 단계로 하나를 생성합니다. 그 ID는 이후 조직의 데이터베이스에서 해당 객체의 안정적인 식별자가 됩니다.
존재하지만 인식할 수 없는 값(실제 개념 ID가 아닌 값)은 무시되며, 대신 ID가 생성됩니다.
해석은 강화당 소량의 임베딩 사용량이 듭니다(다른 모델 호출과 마찬가지로 측정됨). 정확히 일치하는 캐시는 반복 시 무료이며, 입력으로 제공된 ID는 비용이 들지 않습니다.
해석된 ID는 강화 출력 JSON(각 객체의 id 필드)과 레코드 세부 정보의 시맨틱 개념에 표시됩니다. 다음 용도로 사용하세요:
융합은 단일 실행 내에서 모델 간의 불일치를 조정하고, 시맨틱 ID는 여러 실행과 시간에 걸쳐 동일한 엔티티를 조정합니다. 이 둘은 함께 작동합니다.