Benchmarks des modèles - Documentation Entity Enricher

Benchmarks des modèles

Les scénarios de benchmark vous permettent de comparer des modèles LLM sur une tâche d'enrichissement réelle et reproductible — à conditions égales — en capturant la sortie et le coût total de chaque modèle afin de choisir le bon modèle pour la tâche.

Pourquoi faire un benchmark ?

Les modèles varient énormément en précision, en fiabilité des sorties structurées et en prix. Plutôt que de deviner, un scénario de benchmark exécute le même schéma et la même entité sur de nombreux modèles à la fois et enregistre ce que chacun a produit et ce que cela a coûté. Vous comparez sur la base de preuves, puis retenez le modèle le moins cher qui atteint votre niveau de qualité.

Comment ça fonctionne

Définir un scénario

Un scénario de benchmark est un test d'enrichissement enregistré et réutilisable : un schéma, une entrée d'entité fixe (clés de recherche ou JSON brut), une stratégie d'enrichissement, des langues, les options de schéma de réponse / sortie structurée stricte, et d'éventuelles pièces jointes. Il contient également sa référence-étalon et la manière dont les résultats sont notés par rapport à elle (un modèle juge facultatif, un modèle d'embedding et un seuil de rigueur). Définissez-le une fois et réutilisez-le pour chaque modèle que vous souhaitez comparer.

Exécutez-le sur plusieurs modèles

Une fois que le scénario dispose d'une référence vérifiée, exécutez-le sur les modèles actifs d'un fournisseur ou sur tous les modèles actifs affichés. Chaque modèle est enrichi indépendamment — sans fusion — pour obtenir un résultat propre, comparable côte à côte, par modèle. La progression s'affiche en direct, et chaque résultat réussi est automatiquement noté par rapport à la référence dès la fin de l'exécution.

Comparer sortie et coût

Chaque exécution est enregistrée avec sa sortie structurée, son statut de réussite, ses nombres de tokens, son temps de traitement et son coût total facturé. Développez une ligne pour inspecter la sortie JSON ou accéder à l'enregistrement d'enrichissement sous-jacent.

Relancez pour actualiser

Relancer un scénario sur le même modèle écraseson résultat précédent, si bien que le tableau reflète toujours la dernière exécution. Modifiez la configuration d'un scénario et les anciens résultats sont marqués obsolètes jusqu'à ce que vous les relanciez. Définissez Exécutions par modèle sur 2 ou 3 et chaque modèle est benchmarké autant de fois — le tableau conserve la moyenne du coût, de la qualité et de la vitesse, plus un écart de cohérence (les modèles varient d'une exécution à l'autre), pour environ ce multiple de crédits.

Lecture des résultats

Le tableau de résultats est conçu pour la comparaison. Un bandeau de synthèse en haut met en avant le taux de réussite ainsi que les modèles le moins cher et le plus rapide ayant réussi. Chaque colonne — modèle, statut, stratégie, coût, tokens et temps — est triable : un clic suffit pour classer les modèles par prix ou par latence. Filtrez par nom de modèle, statut ou stratégie pour affiner la vue, et dépliez n'importe quelle ligne pour lire la sortie structurée complète ou ouvrir l'enregistrement d'enrichissement sous-jacent.

Itérer : réessayer et désactiver

Le benchmarking est itératif. Cochez des lignes avec les cases à cocher (Maj+clic pour une plage), puis utilisez le menu ··· pour agir sur un sous-ensemble sans tout réexécuter :

Réessayer sélectionnés / échoués / obsolètes — relance uniquement ces modèles ; les résultats sont remplacés sur place. Échoués et obsolètes couvrent volontairement l'ensemble des résultats, afin qu'un filtre actif ne masque jamais une cible de relance.
Désactiver les échecs / la sélection — désactivez des modèles pour qu'ils n'apparaissent plus dans les sélecteurs d'enrichissement. Pratique pour écarter les modèles qui échouent systématiquement sur votre schéma, ou dont la sortie n'était pas à la hauteur de vos attentes.

Définir une référence étalon (requise pour le benchmark)

Chaque scénario contient un résultat de référence — la sortie attendue pour son entité — et un scénario ne peut être soumis à un benchmark qu'une fois cette référence vérifiée. D'ici là, il n'apparaîtra dans aucun menu d'exécution. La référence sert de base pour juger la qualité : à quel point chaque modèle s'en approche, champ par champ, et (pour les listes comme le casting d'un film) combien d'éléments corrects il a réellement trouvés. Vous la définissez — ainsi que le modèle juge, le modèle d'embedding et le niveau de rigueur utilisés pour l'évaluation — directement dans l'éditeur de scénario.

Deux façons de le construire. Générez-le : joignez un document contenant les valeurs correctes (une fiche technique, une page officielle), activez la recherche web et exécutez quelques modèles performants — ils extraient la réponse de votre source plutôt que de leur mémoire, le résultat repose donc sur des faits, pas sur des suppositions. Ou collez un résultat fiable que vous possédez déjà. Dans les deux cas, vous relisez le JSON, corrigez ce qui doit l'être et le marquez comme vérifié — une validation explicite indiquant qu'il s'agit de la réponse de référence.

Comme la référence est ancrée dans les faits et vérifiée une seule fois par un humain, elle sert aussi d'étalon fiable que vous réutilisez pour chaque modèle et chaque exécution future.

Où le trouver

Les benchmarks se trouvent dans Gestion des modèles → Benchmarks(accessible aux propriétaires et administrateurs de l'organisation). Créez et gérez les scénarios à cet endroit, ou lancez une exécution depuis l'un des quatre emplacements suivants : le bouton Benchmarker les modèlesde la barre d'outils (tous les modèles actifs affichés), l'action Benchmarker les modèles sur n'importe quelle ligne de fournisseur (les modèles actifs de ce fournisseur), le menu déroulant Benchmark qui apparaît lorsque vous sélectionnez des modèles dans le panneau Modèles (les modèles sélectionnés), ou l'action Benchmarker le modèle sur n'importe quelle ligne de modèle individuelle.

Coût et facturation

Les exécutions de benchmark effectuent de vrais appels LLM et déduisent des crédits selon l'utilisation réelle, exactement comme un enrichissement normal. La boîte de dialogue de confirmation vous indique combien de modèles vous êtes sur le point d'exécuter avant toute dépense. Chaque résultat enregistré affiche son coût facturé, si bien qu'un benchmark sert aussi d'outil de comparaison des coûts.

Notation des benchmarks

Notez les résultats par rapport à une référence étalon — équivalence, F1 des tableaux, sous-scores.

Modèles et tarifs

Gérez les modèles, synchronisez les tarifs et exécutez des contrôles de santé.

Stratégies d'enrichissement

Passe unique vs domaines d'expertise vs multi-expertise.

Optimisation des coûts

Maîtrisez le coût de l'enrichissement grâce à la mise en cache et au filtrage.

Tableau de bord des coûts

Analysez les dépenses avec des séries temporelles et des ventilations par modèle.