Gli scenari di benchmark vi consentono di confrontare i modelli LLM su un'attività di arricchimento reale e ripetibile — un confronto equo — catturando l'output di ciascun modello e il costo totale, così da poter scegliere il modello giusto per il compito.
I modelli differiscono enormemente per accuratezza, affidabilità dell'output strutturato e prezzo. Anziché tirare a indovinare, uno scenario di benchmark esegue lo stesso schema e la stessa entità attraverso molti modelli contemporaneamente e registra ciò che ciascuno ha prodotto e quanto è costato. Il confronto si basa su dati concreti, così da poter fissare il modello più economico che soddisfa i propri standard di qualità.
Uno scenario di benchmark è un test di arricchimento salvato e riutilizzabile: uno schema, un input di entità fisso (chiavi di ricerca o JSON grezzo), una strategia di arricchimento, le lingue, gli interruttori response-schema / strict-structured-output ed eventuali allegati. Contiene inoltre il suo riferimento gold e il modo in cui i risultati vengono valutati rispetto a esso (un modello giudice opzionale, un modello di embedding e una soglia di rigore). Definiscilo una volta e riutilizzalo su ogni modello che vuoi confrontare.
Una volta che lo scenario dispone di un riferimento verificato, eseguitelo con i modelli attivi di un provider oppure con ogni modello attivo in vista. Ogni modello viene arricchito in modo indipendente — senza fusione — così ottenete un risultato pulito e affiancato per ciascun modello. L'avanzamento viene trasmesso in tempo reale e ogni risultato riuscito viene valutato automaticamente rispetto al riferimento al termine dell'esecuzione.
Ogni esecuzione viene salvata con il suo output strutturato, lo stato di esito, i conteggi dei token, il tempo di elaborazione e il costo totale addebitato. Espandete una qualsiasi riga per esaminare l'output JSON o passare al record di enrichment sottostante.
Rieseguire uno scenario sullo stesso modello sovrascriveil risultato precedente, quindi la tabella riflette sempre l'esecuzione più recente. Modifica la configurazione di uno scenario e i risultati precedenti vengono contrassegnati come obsoleti finché non vengono rieseguiti. Imposta Esecuzioni per modello su 2 o 3 e ogni modello viene sottoposto a benchmark quel numero di volte — la tabella mantiene la media di costo, qualità e velocità, oltre a una variabilità di coerenza (i modelli variano da un'esecuzione all'altra), a circa quel multiplo dei crediti.
La tabella dei risultati è pensata per il confronto. Una striscia di riepilogo nella parte superiore evidenzia il tasso di successo e i modelli più economici e più veloci che hanno avuto esito positivo. Ogni colonna — modello, stato, strategia, costo, token e tempo — è ordinabile, quindi un solo clic ordina i modelli per prezzo o latenza. Filtri per nome del modello, stato o strategia per restringere la vista ed espanda qualsiasi riga per leggere l'output strutturato completo o aprire il record di arricchimento sottostante.
Il benchmarking è iterativo. Selezionate le righe con le caselle di controllo (shift-clic per un intervallo), poi utilizzate il menu ··· per agire su un sottoinsieme senza rieseguire tutto:
Ogni scenario contiene un risultato di riferimento — l'output atteso per la sua entità — e uno scenario può essere sottoposto a benchmark solo dopo che il riferimento è stato verificato. Fino ad allora non comparirà in alcun menu di esecuzione. Il riferimento è la base per giudicare la qualità: quanto ci si avvicina ogni modello, campo per campo, e (per elenchi come il cast di un film) quanti degli elementi corretti ha effettivamente trovato. Lo impostate voi — insieme al modello giudice, al modello di embedding e alla rigorosità usata per valutarlo — direttamente nell'editor dello scenario.
Crealo in due modi. Generalo: allega un documento che contiene i valori corretti (una scheda tecnica, una pagina ufficiale), attiva la ricerca web ed esegui alcuni modelli robusti — estraggono la risposta dalla tua fonte anziché dalla memoria, così il risultato si fonda sulla verità, non su supposizioni. Oppure incolla un risultato affidabile che hai già. In entrambi i casi rivedi il JSON, correggi ciò che serve e contrassegnalo come verificato — un'approvazione esplicita che questa è la risposta di riferimento.
Poiché il riferimento è fondato e verificato manualmente una volta, funge anche da metro di misura affidabile riutilizzabile su ogni modello e ogni esecuzione futura.
I benchmark si trovano in Gestione modelli → Benchmark(disponibile per proprietari e amministratori dell'organizzazione). Create e gestite gli scenari lì, oppure avviate un'esecuzione da uno dei quattro punti: il pulsante Benchmark dei modellinella barra degli strumenti (tutti i modelli attivi in vista), l'azione Benchmark dei modelli su qualsiasi riga di provider (i modelli attivi di quel provider), il menu a discesa Benchmark che appare quando selezionate i modelli nel pannello Modelli (i modelli selezionati), oppure l'azione Benchmark del modello su qualsiasi singola riga di modello.
Le esecuzioni di benchmark effettuano chiamate LLM reali e detraggono i crediti in base all'utilizzo effettivo, esattamente come un normale arricchimento. La finestra di conferma vi indica quanti modelli state per eseguire prima di qualsiasi spesa. Ogni risultato salvato mostra il proprio costo addebitato, quindi un benchmark funge anche da strumento di confronto dei costi.