Elaborazione batch - Documentazione di Entity Enricher

Elaborazione batch

Arricchisca fino a 100 entità in parallelo con monitoraggio dell'avanzamento in tempo reale, fusione multi-modello automatica ed esportazione in JSON o Excel.

Metodi di input

L'arricchimento in batch supporta due modi per fornire i dati delle entità:

Editor JSON

Incolla o digita direttamente un array JSON di entità. L'editor offre evidenziazione della sintassi, indicatori di convalida e conserva i tuoi dati tra le sessioni nell'archiviazione locale.

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

Recupero URL

Recupera le entity da qualsiasi endpoint REST API. Il sistema estrae automaticamente gli array dai wrapper di risposta più comuni.

Autenticazione supportata:

NessunoBearer TokenHeader della chiave APIAutenticazione di base

Se l'API restituisce un oggetto, il sistema controlla chiavi come data, results, items alla ricerca di un array incorporato.

Selezione e validazione dell'entità

Dopo aver caricato le entità, queste compaiono in un elenco selezionabile con lo stato di validazione. È possibile scegliere quali entità includere nel batch:

Selezione multiplaFai clic per selezionare singole entità. Maiusc+clic per gli intervalli. Ctrl+A per selezionare tutto, Ctrl+D per deselezionare tutto.
Modifica inlineFai clic sui campi chiave di ricerca (nome, paese, ecc.) per modificarli direttamente nell'elenco prima dell'arricchimento.
ConvalidaOgni entity viene validata rispetto alle chiavi di ricerca dello schema. Almeno una chiave di ricerca deve essere compilata. Le entity non valide mostrano avvisi ma possono comunque essere selezionate.
Elaborazione selettivaSolo le entità selezionate vengono inviate per l'arricchimento. Deselezionate le entità che non volete elaborare.

Configurazione

La barra laterale rispecchia le opzioni di configurazione del singolo arricchimento:

OpzioneDescrizione
SchemaSchema di destinazione che definisce la struttura di output dell'enrichment
StrategiaPassaggio singolo, domini di competenza o multi-competenza (chiamate parallele per dominio)
ModelliUno o più modelli AI da eseguire per entità. Più modelli abilitano la fusione automatica.
LingueLingue per l'enrichment multilingue dei campi (es. inglese + francese)
ClassificationModello veloce opzionale per la verifica del tipo di entità prima dell'arricchimento
ArbitraggioModello per la risoluzione dei conflitti basata su LLM durante la fusione. Se non impostato, viene utilizzata l'unione basata su regole.

Stima dei costi

Prima di avviare un batch, una finestra di conferma mostra una stima dei costi e un riepilogo. La stima viene calcolata in base al numero di proprietà, ai prezzi dei modelli e al numero di entità e modelli selezionati. Viene visualizzato un avviso quando il numero totale di chiamate LLM supera 100.

Entità
20
Modelli
2
Chiamate totali
~40
Costo stim.
~$1.50

Esecuzione parallela

Tutte le entità selezionate vengono elaborate simultaneamente. Ogni entità attraversa in modo indipendente l'intera pipeline di arricchimento:

Pipeline per entità

  1. Classificazione (opzionale) — Un modello rapido verifica il tipo di entità. In modalità batch, le discordanze non mettono in pausa il processo; il contesto viene comunque trasmesso.
  2. Enrichment multi-model — Ogni model selezionato esegue l'enrichment dell'entity in parallelo, con limitazione della frequenza per provider.
  3. Fusione automatica (quando 2+ modelli hanno successo) — I risultati vengono uniti automaticamente tramite rilevamento e risoluzione dei conflitti.

Limitazione della frequenza

Un limitatore di frequenza globale evita di sovraccaricare i provider di IA. Tutte le entità condividono gli stessi limiti di concorrenza per provider (in genere 5 chiamate simultanee per provider). Con 20 entità e 2 modelli, per ogni provider vengono eseguite fino a 5 chiamate contemporaneamente — le restanti attendono la disponibilità. Ciò garantisce un'esecuzione affidabile senza raggiungere i limiti di frequenza delle API.

Avanzamento in tempo reale

Il pannello dei risultati mostra l'avanzamento in tempo reale tramite Server-Sent Events (SSE). Ogni entità ha una scheda comprimibile che si aggiorna in tempo reale:

In sospeso

In attesa di avviare l'elaborazione

In esecuzione

Arricchimento in corso, con badge di avanzamento che mostrano il completamento per ciascun dominio di competenza

Completato

Tutti i modelli completati con successo. La scheda si comprime automaticamente.

Parziale

Alcuni modelli o competenze non sono riusciti. Risultati parziali disponibili.

Non riuscito

Tutti i modelli hanno avuto esito negativo per questa entità. Dettagli dell'errore mostrati.

Annullamento e gestione degli errori

Puoi annullare un batch in esecuzione in qualsiasi momento. L'annullamento è cooperativo — le entity già in elaborazione completano la chiamata LLM in corso, ma non ne vengono avviate di nuove. I risultati parziali delle entity completate vengono conservati.

Resilienza agli errori

L'elaborazione batch è progettata per essere resiliente. I singoli errori non interrompono il batch:

  • Se la classificazione fallisce per un'entità, l'arricchimento prosegue senza contesto
  • Se un modello fallisce, gli altri modelli per quell'entità proseguono
  • Se tutti i modelli falliscono per un'entità, questa viene contrassegnata come non riuscita mentre le altre proseguono
  • I modelli che restituiscono errori “non trovato” vengono disattivati automaticamente

Formati di esportazione

Al completamento del batch, esporta i risultati in tre formati. Per ogni entità, viene preferito il risultato della fusione se disponibile; in caso contrario, viene utilizzato il miglior risultato del modello.

File JSON

Scarica i risultati completi come file JSON strutturato con tutti i dati delle entità, gli output dei modelli e i metadati di fusione.

Appunti

Copia i risultati JSON direttamente negli appunti per incollarli in altri strumenti o script.

Excel

Una cartella di lavoro a tre fogli: Results (una riga per entità con proprietà appiattite), Summary (metadati del batch, modelli, costi) e Conflicts (dettagli dei conflitti per entità con la logica di risoluzione).

Limiti

LimiteValore
Numero massimo di entity per batch100
Dimensione massima dei dati dell'entity50.000 caratteri
Lunghezza massima del prompt100.000 caratteri
Timeout recupero URL30 secondi

Passaggi successivi