Benchmark dei modelli - Documentazione di Entity Enricher

Benchmark dei modelli

Gli scenari di benchmark vi consentono di confrontare i modelli LLM su un'attività di arricchimento reale e ripetibile — un confronto equo — catturando l'output di ciascun modello e il costo totale, così da poter scegliere il modello giusto per il compito.

Perché fare un benchmark?

I modelli differiscono enormemente per accuratezza, affidabilità dell'output strutturato e prezzo. Anziché tirare a indovinare, uno scenario di benchmark esegue lo stesso schema e la stessa entità attraverso molti modelli contemporaneamente e registra ciò che ciascuno ha prodotto e quanto è costato. Il confronto si basa su dati concreti, così da poter fissare il modello più economico che soddisfa i propri standard di qualità.

Come funziona

Definire uno scenario

Uno scenario di benchmark è un test di arricchimento salvato e riutilizzabile: uno schema, un input di entità fisso (chiavi di ricerca o JSON grezzo), una strategia di arricchimento, le lingue, gli interruttori response-schema / strict-structured-output ed eventuali allegati. Contiene inoltre il suo riferimento gold e il modo in cui i risultati vengono valutati rispetto a esso (un modello giudice opzionale, un modello di embedding e una soglia di rigore). Definiscilo una volta e riutilizzalo su ogni modello che vuoi confrontare.

Lo esegua su più modelli

Una volta che lo scenario dispone di un riferimento verificato, eseguitelo con i modelli attivi di un provider oppure con ogni modello attivo in vista. Ogni modello viene arricchito in modo indipendente — senza fusione — così ottenete un risultato pulito e affiancato per ciascun modello. L'avanzamento viene trasmesso in tempo reale e ogni risultato riuscito viene valutato automaticamente rispetto al riferimento al termine dell'esecuzione.

Confronta output e costi

Ogni esecuzione viene salvata con il suo output strutturato, lo stato di esito, i conteggi dei token, il tempo di elaborazione e il costo totale addebitato. Espandete una qualsiasi riga per esaminare l'output JSON o passare al record di enrichment sottostante.

Esegui di nuovo per aggiornare

Rieseguire uno scenario sullo stesso modello sovrascriveil risultato precedente, quindi la tabella riflette sempre l'esecuzione più recente. Modifica la configurazione di uno scenario e i risultati precedenti vengono contrassegnati come obsoleti finché non vengono rieseguiti. Imposta Esecuzioni per modello su 2 o 3 e ogni modello viene sottoposto a benchmark quel numero di volte — la tabella mantiene la media di costo, qualità e velocità, oltre a una variabilità di coerenza (i modelli variano da un'esecuzione all'altra), a circa quel multiplo dei crediti.

Leggere i risultati

La tabella dei risultati è pensata per il confronto. Una striscia di riepilogo nella parte superiore evidenzia il tasso di successo e i modelli più economici e più veloci che hanno avuto esito positivo. Ogni colonna — modello, stato, strategia, costo, token e tempo — è ordinabile, quindi un solo clic ordina i modelli per prezzo o latenza. Filtri per nome del modello, stato o strategia per restringere la vista ed espanda qualsiasi riga per leggere l'output strutturato completo o aprire il record di arricchimento sottostante.

Itera: riprova e disattiva

Il benchmarking è iterativo. Selezionate le righe con le caselle di controllo (shift-clic per un intervallo), poi utilizzate il menu ··· per agire su un sottoinsieme senza rieseguire tutto:

Riprova selezionati / falliti / obsoleti — riesegue solo quei model; i risultati vengono sovrascritti sul posto. Falliti e obsoleti coprono deliberatamente l'intero set di risultati, così un filtro attivo non nasconde mai un target di ritentativo.
Disabilita quelli falliti / selezionati — disattiva i modelli affinché smettano di comparire nei selettori di arricchimento. Utile per eliminare i modelli che falliscono costantemente il suo schema o il cui output non ha raggiunto il livello richiesto.

Imposta un riferimento gold (necessario per il benchmark)

Ogni scenario contiene un risultato di riferimento — l'output atteso per la sua entità — e uno scenario può essere sottoposto a benchmark solo dopo che il riferimento è stato verificato. Fino ad allora non comparirà in alcun menu di esecuzione. Il riferimento è la base per giudicare la qualità: quanto ci si avvicina ogni modello, campo per campo, e (per elenchi come il cast di un film) quanti degli elementi corretti ha effettivamente trovato. Lo impostate voi — insieme al modello giudice, al modello di embedding e alla rigorosità usata per valutarlo — direttamente nell'editor dello scenario.

Crealo in due modi. Generalo: allega un documento che contiene i valori corretti (una scheda tecnica, una pagina ufficiale), attiva la ricerca web ed esegui alcuni modelli robusti — estraggono la risposta dalla tua fonte anziché dalla memoria, così il risultato si fonda sulla verità, non su supposizioni. Oppure incolla un risultato affidabile che hai già. In entrambi i casi rivedi il JSON, correggi ciò che serve e contrassegnalo come verificato — un'approvazione esplicita che questa è la risposta di riferimento.

Poiché il riferimento è fondato e verificato manualmente una volta, funge anche da metro di misura affidabile riutilizzabile su ogni modello e ogni esecuzione futura.

Dove trovarlo

I benchmark si trovano in Gestione modelli → Benchmark(disponibile per proprietari e amministratori dell'organizzazione). Create e gestite gli scenari lì, oppure avviate un'esecuzione da uno dei quattro punti: il pulsante Benchmark dei modellinella barra degli strumenti (tutti i modelli attivi in vista), l'azione Benchmark dei modelli su qualsiasi riga di provider (i modelli attivi di quel provider), il menu a discesa Benchmark che appare quando selezionate i modelli nel pannello Modelli (i modelli selezionati), oppure l'azione Benchmark del modello su qualsiasi singola riga di modello.

Costi e fatturazione

Le esecuzioni di benchmark effettuano chiamate LLM reali e detraggono i crediti in base all'utilizzo effettivo, esattamente come un normale arricchimento. La finestra di conferma vi indica quanti modelli state per eseguire prima di qualsiasi spesa. Ogni risultato salvato mostra il proprio costo addebitato, quindi un benchmark funge anche da strumento di confronto dei costi.

Punteggio del benchmark

Valuta i risultati rispetto a un riferimento gold — equivalenza, F1 su array, sotto-punteggi.

Modelli e prezzi

Gestisci i modelli, sincronizza i prezzi ed esegui controlli di integrità.

Strategie di arricchimento

Passaggio singolo vs domini di competenza vs multi-competenza.

Ottimizzazione dei costi

Mantieni bassi i costi dell'arricchimento con caching e gating.

Dashboard dei costi

Analizza la spesa con serie temporali e ripartizioni per modello.