IDs semánticos - Documentación de Entity Enricher

IDs semánticos

Enriquezca el mismo tipo de entidad una y otra vez y seguirá redescubriendo las mismas cosas del mundo real —la misma empresa, el mismo efecto secundario de un medicamento, la misma persona— descritas con palabras ligeramente distintas cada vez. Un ID semántico es un identificador estable, con alcance de organización, que Entity Enricher asigna a un objeto a partir de sus campos clave, de modo que esos casi duplicados se colapsan en una sola identidad por la que puede agrupar, deduplicar y unir.

El problema: la misma cosa, distintas palabras

La identidad de un objeto se construye a partir de sus campos clave, y puede haber uno o varios. Dos ejemplos:

Una clave

Un efecto secundario indexado por `name`

Aparece como Headache, Céphalée y Cephalalgia en distintas ejecuciones e idiomas. Un mismo campo clave, tres grafías, un solo concepto real.

Dos claves

Una empresa identificada por `nombre` + `país`

Acme Inc. · Estados Unidos y Acme Incorporated · Estados Unidos son la misma empresa, mientras que Acme Inc. · Alemania es distinta. La segunda clave desambigua; por eso un objeto puede tener más de una.

La coincidencia de cadenas simple falla en todos estos casos; un humano sabe cuáles son iguales. Los ID semánticos codifican ese criterio automáticamente.

Qué es un ID semántico

•Una única propiedad string en un objeto (llamada id de forma predeterminada) que contiene un identificador opaco y estable.
•Estable y limitado a la organización — el mismo elemento del mundo real se resuelve al mismo ID en todos los enriquecimientos, lotes y a lo largo del tiempo, únicamente dentro de su organización.
•Se asigna automáticamente, nunca por el LLM: se calcula en una pasada posterior al enriquecimiento, de modo que el modelo no puede alucinarlo. Es un campo de paso directo (preserve): siempre una cadena, nunca una clave, nunca multilingüe, como máximo uno por objeto.
•Permitido en cualquier objeto: la entidad completa (raíz), un objeto anidado 1-1 (p. ej., un manufacturer) o cada elemento de un array (p. ej., cada side_effect).

Cómo funciona

Después de que el modelo devuelve su resultado, Entity Enricher resuelve cada ID semántico en cuatro pasos, del más económico al más costoso:

Redactar el texto de identidad

Une todos los campos clave del objeto —más las claves de cualquier objeto anidado 1-1 que contenga— en una sola cadena, en su idioma principal. Los elementos dentro de arrays no se incluyen: cada elemento del array tiene su propia identidad. El texto se normaliza (en minúsculas, sin paréntesis, espacios en blanco compactados) para reducir diferencias triviales.

Buscar una coincidencia exacta

Si ese texto normalizado exacto ya se ha visto antes en su organización, su ID existente se reutiliza de inmediato, sin llamada al modelo ni coste.

Incrustar y comparar

De lo contrario, el texto se incrusta y se compara, por significado, con los conceptos existentes del mismo tipo mediante similitud vectorial, de modo que «Acme Inc.» y «Acme Incorporated» terminan uno junto al otro.

Reutilizar o generar

Si la coincidencia más cercana supera el umbral de similitud (por defecto 0.92, ajustable por propiedad), se reutiliza el ID de ese concepto. De lo contrario, se acuña un ID completamente nuevo y se almacena para la próxima vez.

Compensación del umbral: un umbral más alto es más estricto (menos fusiones accidentales); uno más bajo es más laxo (deduplicación más agresiva). Ajústelo por propiedad cuando el valor predeterminado de 0,92 fusione de más o de menos.

ID de entrada vs. ID generados

Que un ID se genere depende de si ya está presente en la entrada para ese objeto. Esto es lo que permite el ida y vuelta: enriquezca una vez para obtener los ID, luego vuelva a pasar un ID conocido en ejecuciones posteriores para adjuntar nuevos datos a la misma identidad: más económico e inequívoco.

ID ya presente en la entrada → conservado (búsqueda)

Si el objeto que envía ya lleva un ID semántico, se trata como una búsqueda: el ID se conserva textualmente, el registro se vincula a ese concepto existente y no hay embedding: sin coste, sin coincidir-o-acuñar. Le está diciendo a la plataforma «este objeto ya está identificado en nuestra base de datos».

No hay ID en la entrada → generado

Si el objeto no tiene un ID semántico, la plataforma genera uno con los cuatro pasos anteriores. A partir de entonces, ese ID se convierte en el identificador estable del objeto en la base de datos de su organización.

Un valor presente pero irreconocible (que no es un ID de concepto real) se ignora y, en su lugar, se genera un ID.

Cómo habilitarlo

Elija un modelo de embedding (una vez por organización)

Un propietario elige un modelo con capacidad de embeddings en Gestión de modelos como modelo de embeddings predeterminado de la organización. Es casi inmutable: una vez que existen conceptos, solo se puede borrar, no cambiar (los vectores almacenados no son comparables entre modelos). Sin él, los ID semánticos simplemente se omiten.

Añadir IDs semánticos al esquema

Dos formas, ambas en el Editor de schema:

Automáticamente durante la generación: marque «Generar ID semánticos para los tipos»; todo objeto con una clave (propia o la de un objeto anidado 1-1) obtiene uno, incluida la entidad raíz.
Manualmente — use el control «+ Añadir ID semántico» en cualquier objeto o en el pie de la entidad.

La resolución consume una pequeña cantidad de uso de embeddings por enrichment (medido como cualquier llamada a un model). La caché de coincidencia exacta hace que las repeticiones sean gratuitas, y los ID proporcionados en la entrada no tienen ningún coste.

Dónde aparecen los ID y qué hacer con ellos

Los ID resueltos aparecen en el JSON de salida del enrichment (el campo id de cada objeto) y en los conceptos semánticos del detalle del record. Úselos para:

•Deduplique filas entre lotes y a lo largo del tiempo.
•Cree una clave de unión estable para su almacén de datos o CRM.
•Reconcilie la misma entidad vista en distintos días o en distintos idiomas.

Complementa la fusión multimodelo

La fusión reconcilia las discrepancias entre modelos dentro de una misma ejecución; los ID semánticos reconcilian la misma entidad a lo largo de ejecuciones y del tiempo. Ambos trabajan juntos.

Conceptos básicos

Claves de búsqueda y fusión, sobre las que se construyen los IDs semánticos

Enriquecimiento multilingüe

Contraer las grafías en distintos idiomas en una sola identidad

Fusión multimodelo

Reconciliar entre modelos dentro de una misma ejecución

Editor de esquemas

Añadir IDs semánticos a cualquier objeto