Procesamiento por lotes - Documentación de Entity Enricher

Procesamiento por lotes

Enriquezca hasta 100 entidades en paralelo con seguimiento del progreso en tiempo real, fusión multimodelo automática y exportación a JSON o Excel.

Métodos de entrada

El enriquecimiento por lotes admite dos formas de proporcionar datos de entidades:

Editor JSON

Pegue o escriba directamente un array JSON de entidades. El editor ofrece resaltado de sintaxis, marcadores de validación y conserva sus datos entre sesiones en el almacenamiento local.

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

Obtención de URL

Obtenga entidades desde cualquier endpoint de API REST. El sistema extrae automáticamente los arrays de los contenedores de respuesta comunes.

Autenticación admitida:

NingunoToken BearerEncabezado de la clave de APIAutenticación básica

Si la API devuelve un objeto, el sistema comprueba claves como data, results, items en busca de un array incrustado.

Selección y validación de entidades

Tras cargar las entidades, estas aparecen en una lista seleccionable con su estado de validación. Puede elegir qué entidades incluir en el lote:

Selección múltipleHaga clic para seleccionar entidades individuales. Mayús+clic para rangos. Ctrl+A para seleccionar todo, Ctrl+D para deseleccionar todo.
Edición en líneaHaga clic en los campos de clave de búsqueda (nombre, país, etc.) para editarlos directamente en la lista antes del enriquecimiento.
ValidaciónCada entidad se valida contra las claves de búsqueda del esquema. Debe rellenarse al menos una clave de búsqueda. Las entidades no válidas muestran advertencias, pero aún pueden seleccionarse.
Procesamiento selectivoSolo se envían para enriquecimiento las entidades seleccionadas. Deseleccione las entidades que no desee procesar.

Configuración

La barra lateral refleja las opciones de configuración del enriquecimiento individual:

OpciónDescripción
EsquemaEsquema de destino que define la estructura de salida del enriquecimiento
EstrategiaPasada única, dominios expertos o multiespecialización (llamadas paralelas por dominio)
ModelosUno o más modelos de IA para ejecutar por entidad. Varios modelos habilitan la fusión automática.
IdiomasIdiomas para el enriquecimiento multilingüe de campos (p. ej., inglés + francés)
ClasificaciónModelo rápido opcional para la verificación del tipo de entidad antes del enriquecimiento
ArbitrajeModelo para la resolución de conflictos basada en LLM durante la fusion. Si no se establece, se utiliza la combinación basada en reglas.

Estimación de costos

Antes de iniciar un lote, un cuadro de diálogo de confirmación muestra una estimación de costes y un resumen. La estimación se calcula en función del número de propiedades, los precios de los modelos y la cantidad de entidades y modelos seleccionados. Aparece una advertencia cuando el número total de llamadas al LLM supera las 100.

Entidades
20
Modelos
2
Total de llamadas
~40
Coste est.
~$1.50

Ejecución en paralelo

Todas las entidades seleccionadas se procesan de forma simultánea. Cada entidad recorre el flujo completo de enriquecimiento de manera independiente:

Flujo por entidad

  1. Clasificación (opcional) — Un modelo rápido verifica el tipo de entidad. En modo por lotes, las discrepancias no pausan el trabajo; el contexto se transfiere.
  2. Enriquecimiento multimodelo — Cada modelo seleccionado enriquece la entidad en paralelo, con límite de velocidad por proveedor.
  3. Fusión automática (cuando 2 o más modelos tienen éxito): los resultados se combinan automáticamente mediante detección y resolución de conflictos.

Limitación de tasa

Un limitador de tasa global evita saturar a los proveedores de IA. Todas las entidades comparten los mismos límites de concurrencia por proveedor (normalmente 5 llamadas simultáneas por proveedor). Con 20 entidades y 2 modelos, se ejecutan hasta 5 llamadas simultáneamente por proveedor; el resto espera a que haya disponibilidad. Esto garantiza una ejecución fiable sin alcanzar los límites de tasa de la API.

Progreso en tiempo real

El panel de resultados muestra el progreso en vivo mediante Server-Sent Events (SSE). Cada entidad tiene una tarjeta plegable que se actualiza en tiempo real:

Pendiente

Esperando para iniciar el procesamiento

En ejecución

En proceso de enriquecimiento, con insignias de progreso que muestran la finalización por dominio de especialización

Completado

Todos los modelos finalizaron correctamente. La tarjeta se contrae automáticamente.

Parcial

Algunos modelos o especialidades fallaron. Hay resultados parciales disponibles.

Fallido

Todos los modelos fallaron para esta entidad. Se muestran los detalles del error.

Cancelación y gestión de errores

Puede cancelar un lote en ejecución en cualquier momento. La cancelación es cooperativa: las entidades ya en curso completan su llamada actual al LLM, pero no se inician nuevas llamadas. Se conservan los resultados parciales de las entidades completadas.

Resiliencia ante errores

El procesamiento por lotes está diseñado para ser resiliente. Los fallos individuales no detienen el lote:

  • Si la clasificación falla para una entidad, el enriquecimiento continúa sin contexto
  • Si un modelo falla, los demás modelos de esa entidad continúan
  • Si todos los modelos fallan para una entidad, esta se marca como fallida mientras los demás continúan
  • Los modelos que devuelven errores de tipo «no encontrado» se desactivan automáticamente

Formatos de exportación

Tras completarse el lote, exporte los resultados en tres formatos. Para cada entidad, se prefiere el resultado de la fusión si está disponible; de lo contrario, se usa el resultado del mejor modelo.

Archivo JSON

Descargue los resultados completos como un archivo JSON estructurado con todos los datos de las entidades, las salidas de los modelos y los metadatos de fusión.

Portapapeles

Copie los resultados JSON directamente al portapapeles para pegarlos en otras herramientas o scripts.

Excel

Un libro de tres hojas: Results (una fila por entidad con propiedades aplanadas), Summary (metadatos del lote, modelos, costes) y Conflicts (detalles de conflictos por entidad con el razonamiento de resolución).

Límites

LímiteValor
Máximo de entities por batch100
Tamaño máximo de datos de la entity50 000 caracteres
Longitud máxima del prompt100.000 caracteres
Tiempo de espera de obtención de URL agotado30 segundos

Próximos pasos