Les scénarios de benchmark vous permettent de comparer des modèles LLM sur une tâche d'enrichissement réelle et reproductible — à conditions égales — en capturant la sortie et le coût total de chaque modèle afin de choisir le bon modèle pour la tâche.
Les modèles varient énormément en précision, en fiabilité des sorties structurées et en prix. Plutôt que de deviner, un scénario de benchmark exécute le même schéma et la même entité sur de nombreux modèles à la fois et enregistre ce que chacun a produit et ce que cela a coûté. Vous comparez sur la base de preuves, puis retenez le modèle le moins cher qui atteint votre niveau de qualité.
Un scénario de benchmark est un test d'enrichissement enregistré et réutilisable : un schéma, une entrée d'entité fixe (clés de recherche ou JSON brut), une stratégie d'enrichissement, des langues, les options de schéma de réponse / sortie structurée stricte, et d'éventuelles pièces jointes. Il contient également sa référence-étalon et la manière dont les résultats sont notés par rapport à elle (un modèle juge facultatif, un modèle d'embedding et un seuil de rigueur). Définissez-le une fois et réutilisez-le pour chaque modèle que vous souhaitez comparer.
Une fois que le scénario dispose d'une référence vérifiée, exécutez-le sur les modèles actifs d'un fournisseur ou sur tous les modèles actifs affichés. Chaque modèle est enrichi indépendamment — sans fusion — pour obtenir un résultat propre, comparable côte à côte, par modèle. La progression s'affiche en direct, et chaque résultat réussi est automatiquement noté par rapport à la référence dès la fin de l'exécution.
Chaque exécution est enregistrée avec sa sortie structurée, son statut de réussite, ses nombres de tokens, son temps de traitement et son coût total facturé. Développez une ligne pour inspecter la sortie JSON ou accéder à l'enregistrement d'enrichissement sous-jacent.
Relancer un scénario sur le même modèle écraseson résultat précédent, si bien que le tableau reflète toujours la dernière exécution. Modifiez la configuration d'un scénario et les anciens résultats sont marqués obsolètes jusqu'à ce que vous les relanciez. Définissez Exécutions par modèle sur 2 ou 3 et chaque modèle est benchmarké autant de fois — le tableau conserve la moyenne du coût, de la qualité et de la vitesse, plus un écart de cohérence (les modèles varient d'une exécution à l'autre), pour environ ce multiple de crédits.
Le tableau de résultats est conçu pour la comparaison. Un bandeau de synthèse en haut met en avant le taux de réussite ainsi que les modèles le moins cher et le plus rapide ayant réussi. Chaque colonne — modèle, statut, stratégie, coût, tokens et temps — est triable : un clic suffit pour classer les modèles par prix ou par latence. Filtrez par nom de modèle, statut ou stratégie pour affiner la vue, et dépliez n'importe quelle ligne pour lire la sortie structurée complète ou ouvrir l'enregistrement d'enrichissement sous-jacent.
Le benchmarking est itératif. Cochez des lignes avec les cases à cocher (Maj+clic pour une plage), puis utilisez le menu ··· pour agir sur un sous-ensemble sans tout réexécuter :
Chaque scénario contient un résultat de référence — la sortie attendue pour son entité — et un scénario ne peut être soumis à un benchmark qu'une fois cette référence vérifiée. D'ici là, il n'apparaîtra dans aucun menu d'exécution. La référence sert de base pour juger la qualité : à quel point chaque modèle s'en approche, champ par champ, et (pour les listes comme le casting d'un film) combien d'éléments corrects il a réellement trouvés. Vous la définissez — ainsi que le modèle juge, le modèle d'embedding et le niveau de rigueur utilisés pour l'évaluation — directement dans l'éditeur de scénario.
Deux façons de le construire. Générez-le : joignez un document contenant les valeurs correctes (une fiche technique, une page officielle), activez la recherche web et exécutez quelques modèles performants — ils extraient la réponse de votre source plutôt que de leur mémoire, le résultat repose donc sur des faits, pas sur des suppositions. Ou collez un résultat fiable que vous possédez déjà. Dans les deux cas, vous relisez le JSON, corrigez ce qui doit l'être et le marquez comme vérifié — une validation explicite indiquant qu'il s'agit de la réponse de référence.
Comme la référence est ancrée dans les faits et vérifiée une seule fois par un humain, elle sert aussi d'étalon fiable que vous réutilisez pour chaque modèle et chaque exécution future.
Les benchmarks se trouvent dans Gestion des modèles → Benchmarks(accessible aux propriétaires et administrateurs de l'organisation). Créez et gérez les scénarios à cet endroit, ou lancez une exécution depuis l'un des quatre emplacements suivants : le bouton Benchmarker les modèlesde la barre d'outils (tous les modèles actifs affichés), l'action Benchmarker les modèles sur n'importe quelle ligne de fournisseur (les modèles actifs de ce fournisseur), le menu déroulant Benchmark qui apparaît lorsque vous sélectionnez des modèles dans le panneau Modèles (les modèles sélectionnés), ou l'action Benchmarker le modèle sur n'importe quelle ligne de modèle individuelle.
Les exécutions de benchmark effectuent de vrais appels LLM et déduisent des crédits selon l'utilisation réelle, exactement comme un enrichissement normal. La boîte de dialogue de confirmation vous indique combien de modèles vous êtes sur le point d'exécuter avant toute dépense. Chaque résultat enregistré affiche son coût facturé, si bien qu'un benchmark sert aussi d'outil de comparaison des coûts.