Enriquezca el mismo tipo de entidad una y otra vez y seguirá redescubriendo las mismas cosas del mundo real —la misma empresa, el mismo efecto secundario de un medicamento, la misma persona— descritas con palabras ligeramente distintas cada vez. Un ID semántico es un identificador estable, con alcance de organización, que Entity Enricher asigna a un objeto a partir de sus campos clave, de modo que esos casi duplicados se colapsan en una sola identidad por la que puede agrupar, deduplicar y unir.
La identidad de un objeto se construye a partir de sus campos clave, y puede haber uno o varios. Dos ejemplos:
nameAparece como Headache, Céphalée y Cephalalgia en distintas ejecuciones e idiomas. Un mismo campo clave, tres grafías, un solo concepto real.
nombre + paísAcme Inc. · Estados Unidos y Acme Incorporated · Estados Unidos son la misma empresa, mientras que Acme Inc. · Alemania es distinta. La segunda clave desambigua; por eso un objeto puede tener más de una.
La coincidencia de cadenas simple falla en todos estos casos; un humano sabe cuáles son iguales. Los ID semánticos codifican ese criterio automáticamente.
string en un objeto (llamada id de forma predeterminada) que contiene un identificador opaco y estable.preserve): siempre una cadena, nunca una clave, nunca multilingüe, como máximo uno por objeto.manufacturer) o cada elemento de un array (p. ej., cada side_effect).Después de que el modelo devuelve su resultado, Entity Enricher resuelve cada ID semántico en cuatro pasos, del más económico al más costoso:
«Acme Inc.» y «Acme Incorporated» terminan uno junto al otro.0.92, ajustable por propiedad), se reutiliza el ID de ese concepto. De lo contrario, se acuña un ID completamente nuevo y se almacena para la próxima vez.Compensación del umbral: un umbral más alto es más estricto (menos fusiones accidentales); uno más bajo es más laxo (deduplicación más agresiva). Ajústelo por propiedad cuando el valor predeterminado de 0,92 fusione de más o de menos.
Que un ID se genere depende de si ya está presente en la entrada para ese objeto. Esto es lo que permite el ida y vuelta: enriquezca una vez para obtener los ID, luego vuelva a pasar un ID conocido en ejecuciones posteriores para adjuntar nuevos datos a la misma identidad: más económico e inequívoco.
Si el objeto que envía ya lleva un ID semántico, se trata como una búsqueda: el ID se conserva textualmente, el registro se vincula a ese concepto existente y no hay embedding: sin coste, sin coincidir-o-acuñar. Le está diciendo a la plataforma «este objeto ya está identificado en nuestra base de datos».
Si el objeto no tiene un ID semántico, la plataforma genera uno con los cuatro pasos anteriores. A partir de entonces, ese ID se convierte en el identificador estable del objeto en la base de datos de su organización.
Un valor presente pero irreconocible (que no es un ID de concepto real) se ignora y, en su lugar, se genera un ID.
La resolución consume una pequeña cantidad de uso de embeddings por enrichment (medido como cualquier llamada a un model). La caché de coincidencia exacta hace que las repeticiones sean gratuitas, y los ID proporcionados en la entrada no tienen ningún coste.
Los ID resueltos aparecen en el JSON de salida del enrichment (el campo id de cada objeto) y en los conceptos semánticos del detalle del record. Úselos para:
La fusión reconcilia las discrepancias entre modelos dentro de una misma ejecución; los ID semánticos reconcilian la misma entidad a lo largo de ejecuciones y del tiempo. Ambos trabajan juntos.