Flusso di arricchimento - Documentazione di Entity Enricher

Flusso di arricchimento

Una guida passo passo su come Entity Enricher elabora una singola entità — dall'input, attraverso la classificazione e l'esecuzione parallela dei modelli, fino all'output strutturato.

La pipeline in breve

Input

JSON dell'entità
+ Schema

Classification

Controllo del tipo
opzionale

Modelli paralleli

Claude

finanziario
normativo
generale

GPT-4

finanziario
normativo
generale

Convalida

Controllo del tipo
Autocorrezione

Output

Strutturato
JSON per modello

Passaggio 1: configura l'arricchimento

Aprite la pagina Schema Editor e configurate il vostro arricchimento. Uno stepper del flusso di lavoro vi guida attraverso le fasi della pipeline: Sample Data, Schema, Enrichment e Results.

Pannello dello schema (a sinistra)

Incolla un JSON di esempio per generare automaticamente uno schema, poi esplora l'albero interattivo delle proprietà. Modifica le proprietà, aggiungi domini di competenza e contrassegna i campi come chiavi di ricerca o come conservati.

Pannello di arricchimento (a destra)

Configura le opzioni di enrichment (strategia, model, lingue, classification, oltre allo schema di risposta e agli interruttori per l'output strutturato rigoroso) e compila le chiavi di ricerca dell'entity (nome, sito web, paese, ecc.) per identificare l'entity.

Pannello dei risultati

Mostra l'avanzamento e i risultati in tempo reale per ogni modello. Quando si utilizzano più modelli, viene visualizzato un pulsante “Unisci risultati” per la fusione.

Passaggio 2: classificazione preliminare (opzionale)

Se ha selezionato un modello di classificazione, viene prima eseguita una chiamata LLM rapida ed economica per verificare che l'entità corrisponda al tipo di schema. Ciò evita di sprecare token per l'arricchimento quando l'entità non corrisponde. Maggiori informazioni nella documentazione sulla classificazione.

Non bloccante: Se la classification fallisce per qualsiasi motivo, l'enrichment prosegue normalmente. La classification è puramente indicativa — aggiunge contesto ai prompt di enrichment ma non blocca mai la pipeline.

Passaggio 3: esecuzione della strategia

Ogni modello selezionato elabora l'entità utilizzando la strategia scelta. Quando vengono selezionati più modelli, questi vengono eseguiti in parallelo tra i provider (Claude e GPT-4 vengono eseguiti simultaneamente), mentre i modelli dello stesso provider vengono eseguiti in sequenza per rispettare i limiti di frequenza.

Esempio multi-competenza (3 domini)

Suddividi lo schema per competenza

Le proprietà sono raggruppate per dominio di competenza: campi finanziari, campi normativi, campi generali.

Esegui chiamate LLM in parallelo

Ogni expertise ottiene il proprio prompt mirato con solo le proprietà dello schema pertinenti. Vengono eseguite tutte simultaneamente.

Unisci i risultati progressivamente

Man mano che ogni competenza viene completata, il suo output viene unito al risultato accumulato. I risultati parziali vengono visualizzati in tempo reale.

Applica logica di conservazione

I valori originali dei campi contrassegnati come 'preserve' vengono ripristinati, garantendo che i dati inseriti rimangano intatti.

Passaggio 4: Convalida e autocorrezione

Ogni risposta dell'LLM viene validata rispetto al vostro schema in tempo reale. Quando l'output non corrisponde ai tipi o ai vincoli previsti, il sistema invia automaticamente gli errori all'LLM per la correzione.

Che cosa viene corretto automaticamente:

Stringa invece di numero

"42.2" diventa 42.2

Oggetti indicizzati come array

{"0": "a", "1": "b"} diventa ["a", "b"]

Null come stringhe

"null" o "None" diventa un null effettivo

Campi obbligatori mancanti

L'errore viene restituito, l'LLM li completa

Fino a 5 tentativi automatici di ripetizione per ogni chiamata LLM. Ogni tentativo include l'errore di validazione specifico, così l'LLM sa esattamente cosa correggere.

Imporre l'output alla fonte

Due interruttori facoltativi chiedono al provider di vincolare l'output prima che venga restituito, così che meno risposte debbano essere corrette in partenza. Entrambi si applicano solo ai modelli che li supportano; tutto ricade comunque nel ciclo di validazione e nuovo tentativo descritto sopra.

Schema di risposta

Invia lo schema tramite il canale nativo di response-schema del provider, così il JSON viene applicato lato server. Disattivato per impostazione predefinita — altrimenti i modelli compatibili usano il canale di tool-call.

Output strutturato rigoroso

Vincola la decodifica allo schema (nessuna deriva) sul canale strutturato utilizzato. Attiva per impostazione predefinita; ignorata silenziosamente dai modelli che non possono applicarla.

Passaggio 5: Streaming in tempo reale

Entity Enricher utilizza gli Server-Sent Events (SSE) per trasmettere l'avanzamento in tempo reale. Non dovete attendere il completamento di tutti i modelli — i risultati appaiono progressivamente man mano che ciascun dominio di competenza o modello termina.

Cronologia degli eventi (esempio con 2 modelli, 3 domini di competenza)

0.0sstartedIl job inizia, 2 modelli in coda

0.1sclassification_startedInizio del controllo preliminare

0.8sclassification_completedEntità confermata come "match" (95%)

0.9smodel_startedClaude e GPT-4 si avviano in parallelo

1.2sexpertise_completedClaude: parte finanziaria completata, risultato parziale in streaming

1.5sexpertise_completedClaude: parte generale completata, risultato aggiornato

1.8sexpertise_completedClaude: normativa completata, risultato completo pronto

1.9smodel_completedClaude ha terminato con output strutturato completo

2.5smodel_completedGPT-4 ha terminato con output strutturato completo

2.5scompletedTutti i modelli completati, lo stream si chiude

Passaggio 6: Revisione dei risultati

Ogni model ottiene il proprio pannello dei risultati che mostra l'output JSON strutturato, i badge di avanzamento per expertise, l'utilizzo dei token, il costo e il tempo di elaborazione. Quando si utilizza la strategia multi-expertise, i badge delle expertise si aggiornano in tempo reale man mano che ciascun domain viene completato.

Che cosa si vede per ogni modello:

Badge di stato — In attesa, In esecuzione, Riuscito, Fallito o Parziale
Badge delle competenze — Pillole colorate che mostrano l'avanzamento per dominio (blu = in corso, verde = completato, rosso = fallito)
JSON progressivo — L'output si aggiorna al completamento di ogni expertise domain
Metriche — Tempo di elaborazione, numero di token, costo in USD
Log di avanzamento — Voci con marca temporale per ogni evento

Gestione del successo parziale

Quando si utilizza la strategia multi-competenza, alcune competenze possono fallire mentre altre riescono. Anziché scartare tutto, Entity Enricher restituisce l'output unito delle competenze riuscite con stato “Parziale”. È quindi possibile riprovare solo le competenze fallite senza rieseguire l'intero arricchimento.

Esempio: se 2 competenze su 3 hanno successo, si ottiene un output strutturato che copre i domini riusciti. La competenza fallita può essere ritentata e i suoi risultati verranno uniti all'output esistente.

Che cosa succede dopo?

Al termine dell'arricchimento, i risultati vengono salvati nella pagina Records per future consultazioni. Se sono stati utilizzati più modelli, è possibile unire i risultati tramite Fusione multi-modello.

Strategie

Passaggio singolo vs multi-competenza

Classification

Verifica preliminare del tipo di entity

Fusione

Unisci i risultati di più modelli