Clasificación previa - Documentación de Entity Enricher

Clasificación previa

La clasificación previa verifica que una entidad coincide con el tipo de esquema esperado antes de que comience el enriquecimiento. Este paso opcional evita alucinaciones y el desperdicio de tokens cuando las entidades no coinciden con su esquema.

¿Por qué clasificar antes de enriquecer?

Los LLM están deseosos de ayudar. Cuando se les pide enriquecer una entidad según un esquema, generan una salida estructurada incluso si la entidad no coincide en absoluto con el tipo del esquema. Esto da lugar a datos alucinados que parecen plausibles pero son totalmente erróneos.

El problema de las alucinaciones
Sin clasificación

Esquema: «Planeta» — Entidad: «Titán»

El LLM trata a Titán como un planeta e inventa datos: periodo orbital, composición atmosférica, número de lunas, todos verosímiles pero incorrectos. En realidad, Titán es una luna de Saturno.

Con clasificación

La clasificación detecta: «discrepancia — Titán es una luna, no un planeta»

Los modelos de enriquecimiento reciben este contexto, establecen en null los campos irrelevantes y solo rellenan las propiedades que realmente aplican a la entidad.

Cómo funciona

La clasificación se ejecuta como una única llamada rápida al LLM antes de que se inicie cualquier modelo de enriquecimiento. Utiliza un modelo económico y rápido (como Claude Haiku o GPT-4o Mini) para minimizar el coste.

1
Enviar el tipo de esquema y los datos de la entidad
El modelo de clasificación recibe el nombre del esquema, la descripción y los datos de la entidad (truncados a 3000 caracteres para mantener los costes bajos).
2
Reciba una clasificación estructurada
El modelo devuelve una respuesta estructurada con un estado (coincidencia, discrepancia, desconocido o ambiguo), una descripción de lo que la entidad realmente es, el nivel de confianza y el razonamiento.
3
Inyectar contexto en el enriquecimiento
El resultado de la clasificación se antepone a cada prompt de enriquecimiento como una sección de «Clasificación previa». Esto proporciona a los modelos de enriquecimiento un contexto crítico sobre el tipo de entidad.

Cuatro estados de clasificación

Coincidencia

La entidad coincide con el tipo del esquema. El enriquecimiento continúa con alta confianza.

Efecto del prompt
Confirma el tipo de entidad y proporciona contexto adicional a los modelos de enriquecimiento.
Ejemplo
Esquema "Pharmaceutical Company", entidad "Sanofi": confirmada como empresa farmacéutica.
Discrepancia

La entidad es de un tipo distinto al que espera el esquema. La clasificación explica qué es realmente la entidad.

Efecto del prompt
Advierte a los modelos de enriquecimiento que la entidad no coincide. Les indica que usen null para los campos irrelevantes.
Ejemplo
Esquema "Planet", entidad "Titan": identificada como una luna de Saturno, no un planeta.
Desconocido

La entidad no se puede identificar con certeza. El LLM no dispone de suficiente información para clasificarla.

Efecto del prompt
Indica a los modelos de enriquecimiento que usen null cuando haya incertidumbre en lugar de suponer.
Ejemplo
Esquema "Pharmaceutical Company", entidad "XYZ Corp": no hay información suficiente para determinar el tipo de entidad.
Ambiguo

Existen varias interpretaciones válidas. La classification enumera las alternativas.

Efecto del prompt
Enumera las posibles interpretaciones y pide a los modelos de enriquecimiento que elijan la más probable.
Ejemplo
Esquema "Company", entidad "Mercury": podría ser el planeta, el elemento o Mercury Insurance.

Propiedades clave

No bloqueante

La clasificación es meramente orientativa. Si la llamada de clasificación falla por cualquier motivo (error del modelo, tiempo de espera agotado, límite de tasa), el enriquecimiento continúa con normalidad sin contexto de clasificación. Esto garantiza que el paso opcional de clasificación nunca impida que el enriquecimiento se complete.

Rentable

La clasificación está diseñada para ejecutarse en modelos rápidos y económicos. Envía una carga mínima (nombre del esquema, descripción y datos de la entidad truncados) y espera una pequeña respuesta estructurada. El coste típico es una fracción del propio enriquecimiento, muy rentable frente a la mejora de la precisión.

Retroalimentación en tiempo real

La interfaz muestra el progreso de la clasificación en tiempo real mediante Server-Sent Events. Un evento classification_started se dispara cuando comienza la comprobación, seguido de classification_completed con el estado, la confianza y la descripción de la entidad. El resultado aparece como un banner sobre los resultados del modelo.

Cancelable

Si cancela el enriquecimiento durante la fase de clasificación, el trabajo se detiene de inmediato sin iniciar ningún modelo de enriquecimiento. No se gastan tokens innecesarios.

Cuándo habilitar la classification

Recomendado
  • Esquemas con un tipo de entidad específico (p. ej., «Empresa farmacéutica»)
  • Datos de entrada que pueden contener tipos de entidad mixtos
  • Enriquecimiento por lotes con entidades de diversas fuentes
  • Cuando se utilizan models de enrichment costosos y desea evitar el desperdicio
No necesario
  • Esquemas genéricos que aceptan cualquier entidad (p. ej., «Organización»)
  • Datos de entrada seleccionados en los que usted controla el tipo de entity
  • Iteraciones rápidas donde la velocidad importa más que la precisión
  • Esquemas sin una definición clara del tipo de entidad

Cómo habilitar

En el Editor de esquemas o en la barra lateral de Enriquecimiento por lotes, busque el menú desplegable «Clasificación». Seleccione un modelo rápido y económico (Claude Haiku, GPT-4o Mini o similar). La clasificación se ejecutará automáticamente antes de iniciar el enriquecimiento de cada entidad.

Cuando se utiliza la REST API, incluya el campo classification_model en su solicitud de enrichment con la clave compuesta del model (por ejemplo, anthropic::claude-haiku-4-5).