Fusión multimodelo - Documentación de Entity Enricher

Fusión multimodelo

Cuando ejecuta el mismo enrichment en varios models de IA, Entity Enricher puede fusionar los resultados en una única salida de alta confianza. La fusion detecta conflictos entre las salidas de los models y los resuelve mediante reglas deterministas o arbitration con tecnología de LLM.

Pipeline de fusión

Salidas del modelo

Resultado de Claude

Resultado de GPT-4

Resultado de Gemini

Detección de conflictos

Compare cada campo
en todos los modelos

Resolución

Combinación basada en reglas

Arbitraje por LLM

Resultado fusionado

Una única salida con
traza de auditoría de conflictos

Paso 1: detección de conflictos

El detector de conflictos compara cada campo entre todas las salidas de los modelos. Los campos en los que todos los modelos coinciden pasan sin cambios. Los campos en los que los modelos difieren se marcan como conflictos que requieren resolución.

Reglas de comparación por tipo de campo

Tipo	Método de comparación	Qué significa la concordancia
Escalar	Coincidencia exacta normalizada (recortada, en minúsculas, redondeada)	Todos los valores son iguales tras la normalización
Multilingüe	Comparación por idioma	Cada clave de idioma coincide entre modelos
Array	Comparación de conjuntos (independiente del orden)	Los mismos elementos independientemente del orden
Objeto	Recursivo por propiedad	Todas las propiedades anidadas coinciden
Null	Null es igual a ausente	Tratado como equivalente

Ejemplo: enriquecer «Sanofi» con 2 modelos

Salida de Claude

revenue: 42.2
gmp_status: true
description: “Sanofi is a global...”

Salida de GPT-4

revenue: 44.1
gmp_status: true
description: “Sanofi SA is a...”

Resultado: gmp_status = agreed | revenue = conflict (42.2 vs 44.1) | description = conflict (different text)

Paso 2: resolución de conflictos

Los conflictos se resuelven mediante uno de dos métodos, según si seleccionó un modelo de arbitraje en la barra lateral.

Opción A

Combinación basada en reglas

Se aplican reglas deterministas según el tipo de dato de cada campo. No se necesitan llamadas adicionales al LLM: la resolución es instantánea y gratuita.

Tipo de campo	Regla	Justificación
Cadena	Voto mayoritario; en caso de empate gana el valor más largo	Más detalle suele ser mejor
Número	Valor de la mediana	Robusto ante valores atípicos
Booleano	Mayoría; «true» gana los empates	Valor predeterminado conservador
Multilingüe	Voto por mayoría por idioma	Cada idioma se resuelve de forma independiente
Array	Unión de todos los elementos	Conservar toda la información
Objeto	Recursivo por campo	Aplicar reglas a campos anidados
Null frente a valor	Preferir no nulo	La falta de datos es peor que cualquier valor

Desempate: Cuando los votos están empatados, gana el valor del modelo de mayor precio (como indicador de su capacidad), seguido del orden alfabético del nombre del modelo.

Opción B

Arbitraje por LLM

Cuando selecciona un arbitration model en la barra lateral, los conflictos se envían a un LLM para su resolución inteligente. El árbitro recibe el contexto de la entity, las descripciones de los campos del schema y todos los valores en conflicto, y luego toma decisiones razonadas.

Qué devuelve el arbitrador

Valor elegidoEl valor que considera más preciso

Modelo de origenDe qué modelo proviene el valor elegido

RazonamientoPor qué eligió ese valor en lugar de las alternativas

ConfianzaCuánta confianza tiene en la decisión (alta, media, baja)

Respaldo: Si el modelo de arbitraje falla (tiempo de espera, error), el sistema recurre automáticamente a la combinación basada en reglas para que siempre obtenga un resultado.

Paso 3: el resultado fusionado

Tras la resolución de conflictos, el sistema construye un único resultado combinado y lo almacena como registro de «arbitraje» en la base de datos. Cada resultado combinado incluye un registro de auditoría para que pueda rastrear cómo se resolvió cada conflicto.

Registro de auditoría (metadatos de arbitraje)

Cada resultado combinado incluye metadatos que documentan el proceso de fusión:

“method”: “rule_based” | “llm”

“source_record_ids”: [“uuid-1”, “uuid-2”]

“total_fields”: 23

“agreed_fields”: 18

“conflicted_fields”: 5

“decisions”: [{ path, chosen_value, rule_used, ... }]

Qué ve en la interfaz

Una vez completada la fusión, la pestaña «Combinado» del panel de resultados muestra:

Encabezado de resumen

Muestra el método de resolución (basado en reglas o LLM) y un recuento como «18 coincidentes / 5 resueltos / 23 campos en total».

JSON fusionado

La salida estructurada completa que combina los valores acordados y los conflictos resueltos en un único documento JSON.

Informe de conflictos

Tarjetas expandibles para cada conflicto que muestran: la ruta del campo, la insignia del método de resolución (voto mayoritario, mediana, unión, etc.), todos los valores del modelo con el elegido resaltado y el texto de razonamiento si se utilizó arbitraje por LLM.

Fusion automática en el procesamiento por batch

En el enriquecimiento por lotes, la fusión se realiza automáticamente cuando selecciona dos o más modelos. No es necesario hacer clic en «Combinar resultados» manualmente: en cuanto todos los modelos completan una entidad, la fusión se ejecuta y el resultado combinado aparece junto a las salidas de los modelos individuales.

Fusión en streaming: Durante el enriquecimiento, tanto de una sola entidad como por lote, el progreso de la fusión se transmite mediante Server-Sent Events. Verá los eventos fusion_started, conflicts_detected y fusion_completed en tiempo real.

Basado en reglas vs. arbitraje con LLM: cuándo usar cada uno

Basado en reglas (gratis, instantáneo)

Datos mayoritariamente objetivos/numéricos donde la lógica de votación funciona bien
Alto volumen o procesamiento por batch donde el coste importa
Esquemas simples con pocos conflictos previstos
Cuando desea resultados deterministas y reproducibles

Arbitraje por LLM (coste adicional)