Fusión multimodelo - Documentación de Entity Enricher

Fusión multimodelo

Cuando ejecuta el mismo enrichment en varios models de IA, Entity Enricher puede fusionar los resultados en una única salida de alta confianza. La fusion detecta conflictos entre las salidas de los models y los resuelve mediante reglas deterministas o arbitration con tecnología de LLM.

Pipeline de fusión

Salidas del modelo
Resultado de Claude
Resultado de GPT-4
Resultado de Gemini
Detección de conflictos
Compare cada campo
en todos los modelos
Resolución
Combinación basada en reglas
o
Arbitraje por LLM
Resultado fusionado
Una única salida con
traza de auditoría de conflictos

Paso 1: detección de conflictos

El detector de conflictos compara cada campo entre todas las salidas de los modelos. Los campos en los que todos los modelos coinciden pasan sin cambios. Los campos en los que los modelos difieren se marcan como conflictos que requieren resolución.

Reglas de comparación por tipo de campo
TipoMétodo de comparaciónQué significa la concordancia
EscalarCoincidencia exacta normalizada (recortada, en minúsculas, redondeada)Todos los valores son iguales tras la normalización
MultilingüeComparación por idiomaCada clave de idioma coincide entre modelos
ArrayComparación de conjuntos (independiente del orden)Los mismos elementos independientemente del orden
ObjetoRecursivo por propiedadTodas las propiedades anidadas coinciden
NullNull es igual a ausenteTratado como equivalente
Ejemplo: enriquecer «Sanofi» con 2 modelos
Salida de Claude
revenue: 42.2
gmp_status: true
description: “Sanofi is a global...”
Salida de GPT-4
revenue: 44.1
gmp_status: true
description: “Sanofi SA is a...”
Resultado: gmp_status = agreed | revenue = conflict (42.2 vs 44.1) | description = conflict (different text)

Paso 2: resolución de conflictos

Los conflictos se resuelven mediante uno de dos métodos, según si seleccionó un modelo de arbitraje en la barra lateral.

Opción A

Combinación basada en reglas

Se aplican reglas deterministas según el tipo de dato de cada campo. No se necesitan llamadas adicionales al LLM: la resolución es instantánea y gratuita.

Tipo de campoReglaJustificación
CadenaVoto mayoritario; en caso de empate gana el valor más largoMás detalle suele ser mejor
NúmeroValor de la medianaRobusto ante valores atípicos
BooleanoMayoría; «true» gana los empatesValor predeterminado conservador
MultilingüeVoto por mayoría por idiomaCada idioma se resuelve de forma independiente
ArrayUnión de todos los elementosConservar toda la información
ObjetoRecursivo por campoAplicar reglas a campos anidados
Null frente a valorPreferir no nuloLa falta de datos es peor que cualquier valor

Desempate: Cuando los votos están empatados, gana el valor del modelo de mayor precio (como indicador de su capacidad), seguido del orden alfabético del nombre del modelo.

Opción B

Arbitraje por LLM

Cuando selecciona un arbitration model en la barra lateral, los conflictos se envían a un LLM para su resolución inteligente. El árbitro recibe el contexto de la entity, las descripciones de los campos del schema y todos los valores en conflicto, y luego toma decisiones razonadas.

Qué devuelve el arbitrador
Valor elegidoEl valor que considera más preciso
Modelo de origenDe qué modelo proviene el valor elegido
RazonamientoPor qué eligió ese valor en lugar de las alternativas
ConfianzaCuánta confianza tiene en la decisión (alta, media, baja)

Respaldo: Si el modelo de arbitraje falla (tiempo de espera, error), el sistema recurre automáticamente a la combinación basada en reglas para que siempre obtenga un resultado.

Paso 3: el resultado fusionado

Tras la resolución de conflictos, el sistema construye un único resultado combinado y lo almacena como registro de «arbitraje» en la base de datos. Cada resultado combinado incluye un registro de auditoría para que pueda rastrear cómo se resolvió cada conflicto.

Registro de auditoría (metadatos de arbitraje)

Cada resultado combinado incluye metadatos que documentan el proceso de fusión:

“method”: “rule_based” | “llm”
“source_record_ids”: [“uuid-1”, “uuid-2”]
“total_fields”: 23
“agreed_fields”: 18
“conflicted_fields”: 5
“decisions”: [{ path, chosen_value, rule_used, ... }]

Qué ve en la interfaz

Una vez completada la fusión, la pestaña «Combinado» del panel de resultados muestra:

1
Encabezado de resumen
Muestra el método de resolución (basado en reglas o LLM) y un recuento como «18 coincidentes / 5 resueltos / 23 campos en total».
2
JSON fusionado
La salida estructurada completa que combina los valores acordados y los conflictos resueltos en un único documento JSON.
3
Informe de conflictos
Tarjetas expandibles para cada conflicto que muestran: la ruta del campo, la insignia del método de resolución (voto mayoritario, mediana, unión, etc.), todos los valores del modelo con el elegido resaltado y el texto de razonamiento si se utilizó arbitraje por LLM.

Fusion automática en el procesamiento por batch

En el enriquecimiento por lotes, la fusión se realiza automáticamente cuando selecciona dos o más modelos. No es necesario hacer clic en «Combinar resultados» manualmente: en cuanto todos los modelos completan una entidad, la fusión se ejecuta y el resultado combinado aparece junto a las salidas de los modelos individuales.

Fusión en streaming: Durante el enriquecimiento, tanto de una sola entidad como por lote, el progreso de la fusión se transmite mediante Server-Sent Events. Verá los eventos fusion_started, conflicts_detected y fusion_completed en tiempo real.

Basado en reglas vs. arbitraje con LLM: cuándo usar cada uno

Basado en reglas (gratis, instantáneo)
  • Datos mayoritariamente objetivos/numéricos donde la lógica de votación funciona bien
  • Alto volumen o procesamiento por batch donde el coste importa
  • Esquemas simples con pocos conflictos previstos
  • Cuando desea resultados deterministas y reproducibles
Arbitraje por LLM (coste adicional)
  • Esquemas complejos donde el contexto importa para la resolución
  • Datos textuales (descripciones, resúmenes) donde la votación es insuficiente
  • Cuando necesita decisiones explicables con razonamiento
  • Enrichments críticos donde la precisión justifica el coste adicional