Arricchimento e fusione multi-modello - Entity Enricher

Arricchimento e fusione multi-modello

Esegua più modelli AI in parallelo sulla stessa entità, rilevi i conflitti a livello di campo tra i loro output e fonda i risultati in un unico record ad alta confidenza. È questo l'elemento distintivo principale di Entity Enricher: invece di affidarsi a un singolo LLM, si effettua una convalida incrociata tra provider per la massima accuratezza dei dati.

Come funziona l'arricchimento multi-modello

INPUT

Dati dell'entità + Schema

Claude

Arricchisce in modo indipendente

GPT-4

Arricchisce in modo indipendente

Gemini

Arricchisce in modo indipendente

RILEVAMENTO DEI CONFLITTI

Confronto campo per campo tra tutti gli output dei modelli

OPZIONE A

Unione basata su regole

Voto a maggioranza, mediana, unione

OPZIONE B

Arbitraggio LLM

L'AI risolve con ragionamento

OUTPUT FUSO

Un unico record ad alta affidabilità con audit trail

Esecuzione parallela dei modelli

Quando si selezionano più modelli per un processo di arricchimento, Entity Enricher invia gli stessi dati dell'entità e lo stesso schema a ciascun modello contemporaneamente. Ogni modello viene eseguito in modo indipendente, senza conoscere gli output degli altri, garantendo dati realmente indipendenti.

Il sistema supporta qualsiasi combinazione di provider -- Anthropic Claude, OpenAI GPT-4, Google Gemini, Mistral o modelli self-hosted tramite Ollama. La limitazione della frequenza per provider garantisce di rimanere entro i limiti API di ciascun provider massimizzando al contempo il throughput.

Lo streaming SSE in tempo reale mostra l'avanzamento man mano che ogni modello viene completato, incluso l'avanzamento per competenza quando si utilizza la strategia multi-competenza. È possibile visualizzare risultati parziali prima che tutti i modelli abbiano terminato.

Rilevamento dei conflitti basato sul tipo

Al termine dell'elaborazione di tutti i modelli, il motore di rilevamento dei conflitti confronta i loro output campo per campo. Il confronto tiene conto del tipo — tipi di campo diversi utilizzano regole di confronto diverse:

Tipo di campoMetodo di confrontoRegola di accordo
Stringa / ScalareCorrispondenza esatta (normalizzata)Tutti i valori devono essere uguali dopo la normalizzazione di maiuscole/minuscole e spazi
NumeroCorrispondenza numerica esattaTutti i valori devono essere numeri identici
BooleanoCorrispondenza esattaTutti i modelli devono concordare su vero/falso
MultilinguaConfronto per linguaOgni chiave di lingua confrontata in modo indipendente
ArrayConfronto tra insiemi (ordine ignorato)Stessi elementi indipendentemente dall'ordine
OggettoRicorsivo per proprietàTutti i campi nidificati devono corrispondere
Valori nullnull == mancanteNull e assente sono trattati come equivalenti

Metodi di risoluzione dei conflitti

Unione basata su regole

Risoluzione deterministica basata su regole di votazione. Rapida, prevedibile e senza bisogno di ulteriori chiamate LLM.

  • Stringhe: Voto di maggioranza. In caso di parità prevale il valore più lungo (più dettaglio è meglio).
  • Numeri: Valore mediano. Robusto rispetto agli outlier di qualsiasi singolo model.
  • Booleani: voto a maggioranza. In caso di parità vince True (conservativo).
  • Array: unione di tutti gli elementi. Conserva tutte le informazioni.
  • Oggetti: Applicazione ricorsiva delle regole precedenti campo per campo.
  • Null: Sono preferiti i valori non nulli. L'assenza di dati è peggiore di qualsiasi valore.

Arbitraggio LLM

Un modello di arbitrato esamina ogni conflitto con il contesto dell'entità e le descrizioni dei campi, quindi prende una decisione strutturata.

  • Motivazione: Ogni decisione include una spiegazione in linguaggio naturale del perché è stato scelto un determinato valore.
  • Confidenza: punteggio di confidenza alta, media o bassa per ogni decisione.
  • Valore scelto: l'arbitro seleziona tra gli output disponibili dei modelli o sintetizza una risposta migliore.
  • Fallback: se l'arbitraggio fallisce, il sistema ricorre automaticamente all'unione basata su regole.

Traccia di controllo completa

Ogni record risultante dalla fusion include metadati di arbitration con provenienza completa:

Questi metadati vengono memorizzati insieme al record risultante dalla fusion ed esportati nel foglio dei conflitti di Excel, rendendoli adatti ai flussi di lavoro di conformità in cui è importante la provenienza delle decisioni.

Quando l'arricchimento multi-modello conta di più

Dati critici

Due diligence finanziaria, profili di sicurezza farmaceutica e screening di conformità in cui gli errori hanno conseguenze concrete.

Fatti contestati

Entità con informazioni contrastanti tra le fonti: importi di finanziamento, date di fondazione o stati normativi che fonti diverse riportano in modo differente.

Lacune di copertura

Quando nessun singolo modello dispone di una conoscenza completa. LLM diversi sono addestrati su dati diversi, quindi eseguire più modelli colma le lacune.

Requisiti di attendibilità

Quando i consumatori a valle necessitano di punteggi di affidabilità e della provenienza per ogni dato, non solo dei valori finali.

Provate l'enrichment multi-modello

Seleziona 2+ modelli, eseguili in parallelo e osserva come la fusion risolve i conflitti. Nessun impegno mensile -- porta le tue chiavi API e paga per token.

Inizia gratis