Arricchimento e fusione multi-modello - Entity Enricher

Arricchimento e fusione multi-modello

Esegua più modelli AI in parallelo sulla stessa entità, rilevi i conflitti a livello di campo tra i loro output e fonda i risultati in un unico record ad alta confidenza. È questo l'elemento distintivo principale di Entity Enricher: invece di affidarsi a un singolo LLM, si effettua una convalida incrociata tra provider per la massima accuratezza dei dati.

Come funziona l'arricchimento multi-modello

INPUT

Dati dell'entità + Schema

Claude

Arricchisce in modo indipendente

GPT-4

Arricchisce in modo indipendente

Gemini

Arricchisce in modo indipendente

RILEVAMENTO DEI CONFLITTI

Confronto campo per campo tra tutti gli output dei modelli

OPZIONE A

Unione basata su regole

Voto a maggioranza, mediana, unione

OPZIONE B

Arbitraggio LLM

L'AI risolve con ragionamento

OUTPUT FUSO

Un unico record ad alta affidabilità con audit trail

Esecuzione parallela dei modelli

Quando si selezionano più modelli per un processo di arricchimento, Entity Enricher invia gli stessi dati dell'entità e lo stesso schema a ciascun modello contemporaneamente. Ogni modello viene eseguito in modo indipendente, senza conoscere gli output degli altri, garantendo dati realmente indipendenti.

Il sistema supporta qualsiasi combinazione di provider -- Anthropic Claude, OpenAI GPT-4, Google Gemini, Mistral o modelli self-hosted tramite Ollama. La limitazione della frequenza per provider garantisce di rimanere entro i limiti API di ciascun provider massimizzando al contempo il throughput.

Lo streaming SSE in tempo reale mostra l'avanzamento man mano che ogni modello viene completato, incluso l'avanzamento per competenza quando si utilizza la strategia multi-competenza. È possibile visualizzare risultati parziali prima che tutti i modelli abbiano terminato.

Rilevamento dei conflitti basato sul tipo

Al termine dell'elaborazione di tutti i modelli, il motore di rilevamento dei conflitti confronta i loro output campo per campo. Il confronto tiene conto del tipo — tipi di campo diversi utilizzano regole di confronto diverse:

Tipo di campo	Metodo di confronto	Regola di accordo
Stringa / Scalare	Corrispondenza esatta (normalizzata)	Tutti i valori devono essere uguali dopo la normalizzazione di maiuscole/minuscole e spazi
Numero	Corrispondenza numerica esatta	Tutti i valori devono essere numeri identici
Booleano	Corrispondenza esatta	Tutti i modelli devono concordare su vero/falso
Multilingua	Confronto per lingua	Ogni chiave di lingua confrontata in modo indipendente
Array	Confronto tra insiemi (ordine ignorato)	Stessi elementi indipendentemente dall'ordine
Oggetto	Ricorsivo per proprietà	Tutti i campi nidificati devono corrispondere
Valori null	null == mancante	Null e assente sono trattati come equivalenti

Metodi di risoluzione dei conflitti

Unione basata su regole

Risoluzione deterministica basata su regole di votazione. Rapida, prevedibile e senza bisogno di ulteriori chiamate LLM.

Stringhe: Voto di maggioranza. In caso di parità prevale il valore più lungo (più dettaglio è meglio).
Numeri: Valore mediano. Robusto rispetto agli outlier di qualsiasi singolo model.
Booleani: voto a maggioranza. In caso di parità vince True (conservativo).
Array: unione di tutti gli elementi. Conserva tutte le informazioni.
Oggetti: Applicazione ricorsiva delle regole precedenti campo per campo.
Null: Sono preferiti i valori non nulli. L'assenza di dati è peggiore di qualsiasi valore.

Arbitraggio LLM

Un modello di arbitrato esamina ogni conflitto con il contesto dell'entità e le descrizioni dei campi, quindi prende una decisione strutturata.

Motivazione: Ogni decisione include una spiegazione in linguaggio naturale del perché è stato scelto un determinato valore.
Confidenza: punteggio di confidenza alta, media o bassa per ogni decisione.
Valore scelto: l'arbitro seleziona tra gli output disponibili dei modelli o sintetizza una risposta migliore.
Fallback: se l'arbitraggio fallisce, il sistema ricorre automaticamente all'unione basata su regole.

Traccia di controllo completa

Ogni record risultante dalla fusion include metadati di arbitration con provenienza completa:

- Metodo di risoluzione (basato su regole o nome del modello di arbitraggio LLM)
- ID dei record di origine per ciascun modello contributore
- Conteggi dei campi totali, dei campi concordi e dei campi in conflitto
- Decisioni per conflitto con motivazione e livello di confidenza
- Utilizzo dei token e costo per la chiamata di arbitraggio

Questi metadati vengono memorizzati insieme al record risultante dalla fusion ed esportati nel foglio dei conflitti di Excel, rendendoli adatti ai flussi di lavoro di conformità in cui è importante la provenienza delle decisioni.

Quando l'arricchimento multi-modello conta di più

Dati critici

Due diligence finanziaria, profili di sicurezza farmaceutica e screening di conformità in cui gli errori hanno conseguenze concrete.

Fatti contestati

Entità con informazioni contrastanti tra le fonti: importi di finanziamento, date di fondazione o stati normativi che fonti diverse riportano in modo differente.

Lacune di copertura

Quando nessun singolo modello dispone di una conoscenza completa. LLM diversi sono addestrati su dati diversi, quindi eseguire più modelli colma le lacune.

Requisiti di attendibilità

Quando i consumatori a valle necessitano di punteggi di affidabilità e della provenienza per ogni dato, non solo dei valori finali.

Documentazione sulla fusione|Generazione di schema con AI|Elaborazione batch|Tutte le funzionalità|Entity Enricher a confronto con Clay

Provate l'enrichment multi-modello

Seleziona 2+ modelli, eseguili in parallelo e osserva come la fusion risolve i conflitti. Nessun impegno mensile -- porta le tue chiavi API e paga per token.

Inizia gratis

Arricchimento e fusione multi-modello

Come funziona l'arricchimento multi-modello

Esecuzione parallela dei modelli

Rilevamento dei conflitti basato sul tipo

Metodi di risoluzione dei conflitti

Unione basata su regole

Arbitraggio LLM

Traccia di controllo completa

Quando l'arricchimento multi-modello conta di più

Dati critici

Fatti contestati

Lacune di copertura

Requisiti di attendibilità

Risorse correlate

Provate l'enrichment multi-modello