Generación de esquemas con IA - Documentación de Entity Enricher

Generación de esquemas con IA

Genere esquemas JSON estructurados a partir de datos de muestra con IA, con autocorrección automática y posprocesamiento inteligente.

Cómo funciona

La generación de esquemas convierte los datos brutos de una entidad en un esquema JSON tipado y anotado que define exactamente qué información extraer durante el enriquecimiento. En lugar de escribir esquemas manualmente, usted pega un JSON de muestra y deja que la IA analice la estructura, infiera los tipos, asigne dominios de especialización y sugiera mejoras.

El pipeline de generación

  1. Preprocesamiento de la entrada — Se analiza su JSON de muestra. Los objetos localizados (como {"en": "...", "fr": "..."}) se colapsan a un único valor, y el número de propiedades determina cuántos dominios de especialización se permiten.
  2. Construcción del prompt — Se crea un prompt de sistema adaptativo en función de la complejidad de sus datos: si tiene objetos anidados, cuántas propiedades contiene y si se detectaron campos multilingües.
  3. Generación con LLM y autocorrección — La IA genera el esquema. Si falla alguna de las 8 reglas de validación, los errores se devuelven a la IA para su corrección, hasta un total de 6 intentos.
  4. Posprocesamiento — Reglas deterministas refinan el esquema: marcan los campos que admiten null, limpian las claves de búsqueda vacías y recopilan metadatos de especialización.
  5. Guardado automático: el schema generado se guarda automáticamente y se deduplica mediante hashing de contenido, de modo que los schemas idénticos no se duplican.

Bucle de autocorrección

El bucle de autocorrección es lo que hace fiable la generación de esquemas. Después de que la IA produce un esquema, este pasa por un validador que comprueba 8 reglas que cubren la corrección de tipos, la asignación de especialización, la integridad de referencias y la completitud de los datos. Si alguna regla falla, el mensaje de error específico se devuelve a la IA para que pueda corregir el problema en su siguiente intento.

Autocorrección de ejemplo

Intento 1La IA genera el esquema. El validador detecta: revenue: discrepancia de tipo — la entrada es un número pero el esquema indica 'string'
ReintentarEl error se devuelve a la IA con contexto sobre qué salió mal.
Intento 2La IA corrige el tipo a number. Las 8 reglas pasan. El esquema se acepta.

Este enfoque es mucho más fiable que pedirle a la IA que "tenga cuidado con los tipos" en el prompt. El validador detecta errores concretos y le da a la IA información precisa para corregirlos. Obtenga más información sobre cada regla en la guía de Reglas de validación.

Qué contiene el esquema

Un esquema generado es más que una simple definición de tipos. Cada propiedad incluye metadatos que guían el proceso de enriquecimiento:

Tipo

Tipo de JSON Schema (string, number, integer, boolean, array, object)

Descripción

Descripción contextual que indica a la IA qué información debe encontrar

Especialización

Qué dominio de experiencia (financiero, regulatorio, etc.) proporciona este valor

Clave de búsqueda

Si este campo identifica la entidad (búsqueda) o deduplica matrices (combinación)

Nullable

Si el campo puede ser null, evitando reintentos innecesarios para datos opcionales

Multilingüe

Si el campo debe enriquecerse en varios idiomas

Conservar

Si se debe mantener sin cambios el valor original durante el enriquecimiento

Ejemplos

Valores de ejemplo realistas que guían a la IA hacia el formato correcto

Detección de dominios de expertise

La IA agrupa las propiedades del esquema en dominios de experiencia según su significado semántico. Por ejemplo, el esquema de una empresa farmacéutica podría tener dominios como «Analista financiero», «Experto regulatorio» e «Información corporativa». La estrategia multiexperiencia utiliza estos dominios para ejecutar llamadas LLM paralelas y especializadas que ofrecen resultados más profundos.

Límites de recuento de dominios

El número de dominios de experiencia se limita automáticamente en función del número de propiedades de sus datos para evitar una fragmentación excesiva:

5 propiedades
1 dominio
12 propiedades
2 dominios
30 propiedades
5 dominios
60 propiedades
10 dominios

Posprocesamiento

Después de que la IA genera un esquema válido, tres pasos deterministas de posprocesamiento lo refinan según sus datos de entrada reales:

Detección de nullable

Los campos con valores nulos en su entrada se marcan automáticamente como anulables, para que la IA no desperdicie reintentos tratando de rellenarlos.

Borrado de clave de búsqueda vacía

Las marcas de clave de búsqueda se eliminan de los campos con valores vacíos (null, cadena vacía, cero), ya que no pueden ayudar a identificar la entidad.

Colección de especialización

Todos los dominios de especialización únicos se recopilan del esquema para las métricas y la configuración de la estrategia.

Edición de esquemas con IA

Tras la generación, puede modificar los esquemas mediante instrucciones en lenguaje natural. Escriba un comando y la IA aplica el cambio conservando la estructura existente de su esquema. Cada edición también produce 5 sugerencias para mejoras adicionales.

Comandos de edición de ejemplo

Agregar un campo entero employee_count
Crear un objeto de dirección anidado con ciudad y país
Agregar descripciones en francés a todos los campos de texto
Defina una referencia de empresa matriz usando $defs
Marcar el campo de sitio web como anulable

Las ediciones con IA se validan utilizando un subconjunto de las reglas de generación (comprobación de tipos, integridad de referencias, consistencia de especialización) sin compararlas con los datos de entrada, ya que puede añadir o eliminar campos intencionadamente.

Sugerencias de IA

Tanto la generación de esquemas como la edición con IA producen 5 sugerencias específicas que abarcan diferentes categorías de mejora:

Integridad de los datosCampos faltantes que podrían enriquecer su entidad
Calidad de los datosPatrones de validación, restricciones de formato
RelacionesEstructuras anidadas, referencias de entity mediante $defs
InternacionalizaciónTraducciones multilingües, compatibilidad con configuraciones regionales
Contexto de negocioCampos específicos de dominio y agrupaciones por dominio de especialización

Las sugerencias aparecen como chips en los que se puede hacer clic en el Editor de esquemas: haga clic en uno para rellenar automáticamente la entrada de edición con IA y aplicarla.

Próximos pasos