IDs semánticos - Documentación de Entity Enricher

IDs semánticos

Enriquezca el mismo tipo de entidad una y otra vez y seguirá redescubriendo las mismas cosas del mundo real —la misma empresa, el mismo efecto secundario de un medicamento, la misma persona— descritas con palabras ligeramente distintas cada vez. Un ID semántico es un identificador estable, con alcance de organización, que Entity Enricher asigna a un objeto a partir de sus campos clave, de modo que esos casi duplicados se colapsan en una sola identidad por la que puede agrupar, deduplicar y unir.

El problema: la misma cosa, distintas palabras

La identidad de un objeto se construye a partir de sus campos clave, y puede haber uno o varios. Dos ejemplos:

Una clave

Un efecto secundario indexado por name

Aparece como Headache, Céphalée y Cephalalgia en distintas ejecuciones e idiomas. Un mismo campo clave, tres grafías, un solo concepto real.

Dos claves

Una empresa identificada por nombre + país

Acme Inc. · Estados Unidos y Acme Incorporated · Estados Unidos son la misma empresa, mientras que Acme Inc. · Alemania es distinta. La segunda clave desambigua; por eso un objeto puede tener más de una.

La coincidencia de cadenas simple falla en todos estos casos; un humano sabe cuáles son iguales. Los ID semánticos codifican ese criterio automáticamente.

Qué es un ID semántico

Cómo funciona

Después de que el modelo devuelve su resultado, Entity Enricher resuelve cada ID semántico en cuatro pasos, del más económico al más costoso:

1
Redactar el texto de identidad
Une todos los campos clave del objeto —más las claves de cualquier objeto anidado 1-1 que contenga— en una sola cadena, en su idioma principal. Los elementos dentro de arrays no se incluyen: cada elemento del array tiene su propia identidad. El texto se normaliza (en minúsculas, sin paréntesis, espacios en blanco compactados) para reducir diferencias triviales.
2
Buscar una coincidencia exacta
Si ese texto normalizado exacto ya se ha visto antes en su organización, su ID existente se reutiliza de inmediato, sin llamada al modelo ni coste.
3
Incrustar y comparar
De lo contrario, el texto se incrusta y se compara, por significado, con los conceptos existentes del mismo tipo mediante similitud vectorial, de modo que «Acme Inc.» y «Acme Incorporated» terminan uno junto al otro.
4
Reutilizar o generar
Si la coincidencia más cercana supera el umbral de similitud (por defecto 0.92, ajustable por propiedad), se reutiliza el ID de ese concepto. De lo contrario, se acuña un ID completamente nuevo y se almacena para la próxima vez.

Compensación del umbral: un umbral más alto es más estricto (menos fusiones accidentales); uno más bajo es más laxo (deduplicación más agresiva). Ajústelo por propiedad cuando el valor predeterminado de 0,92 fusione de más o de menos.

ID de entrada vs. ID generados

Que un ID se genere depende de si ya está presente en la entrada para ese objeto. Esto es lo que permite el ida y vuelta: enriquezca una vez para obtener los ID, luego vuelva a pasar un ID conocido en ejecuciones posteriores para adjuntar nuevos datos a la misma identidad: más económico e inequívoco.

ID ya presente en la entrada → conservado (búsqueda)

Si el objeto que envía ya lleva un ID semántico, se trata como una búsqueda: el ID se conserva textualmente, el registro se vincula a ese concepto existente y no hay embedding: sin coste, sin coincidir-o-acuñar. Le está diciendo a la plataforma «este objeto ya está identificado en nuestra base de datos».

No hay ID en la entrada → generado

Si el objeto no tiene un ID semántico, la plataforma genera uno con los cuatro pasos anteriores. A partir de entonces, ese ID se convierte en el identificador estable del objeto en la base de datos de su organización.

Un valor presente pero irreconocible (que no es un ID de concepto real) se ignora y, en su lugar, se genera un ID.

Cómo habilitarlo

1
Elija un modelo de embedding (una vez por organización)
Un propietario elige un modelo con capacidad de embeddings en Gestión de modelos como modelo de embeddings predeterminado de la organización. Es casi inmutable: una vez que existen conceptos, solo se puede borrar, no cambiar (los vectores almacenados no son comparables entre modelos). Sin él, los ID semánticos simplemente se omiten.
2
Añadir IDs semánticos al esquema
Dos formas, ambas en el Editor de schema:
  • Automáticamente durante la generación: marque «Generar ID semánticos para los tipos»; todo objeto con una clave (propia o la de un objeto anidado 1-1) obtiene uno, incluida la entidad raíz.
  • Manualmente — use el control «+ Añadir ID semántico» en cualquier objeto o en el pie de la entidad.

La resolución consume una pequeña cantidad de uso de embeddings por enrichment (medido como cualquier llamada a un model). La caché de coincidencia exacta hace que las repeticiones sean gratuitas, y los ID proporcionados en la entrada no tienen ningún coste.

Dónde aparecen los ID y qué hacer con ellos

Los ID resueltos aparecen en el JSON de salida del enrichment (el campo id de cada objeto) y en los conceptos semánticos del detalle del record. Úselos para:

Complementa la fusión multimodelo

La fusión reconcilia las discrepancias entre modelos dentro de una misma ejecución; los ID semánticos reconcilian la misma entidad a lo largo de ejecuciones y del tiempo. Ambos trabajan juntos.