Benchmarks de modelos - Documentación de Entity Enricher

Benchmarks de modelos

Los escenarios de benchmark le permiten comparar modelos LLM en una tarea de enriquecimiento real y repetible —de igual a igual— capturando la salida y el coste total de cada modelo para que pueda elegir el modelo adecuado para la tarea.

¿Por qué hacer benchmark?

Los modelos difieren enormemente en precisión, fiabilidad de la salida estructurada y precio. En lugar de adivinar, un escenario de benchmark ejecuta el mismo esquema y la misma entidad a través de muchos modelos a la vez y registra lo que cada uno produjo y cuánto costó. Usted compara con datos objetivos y luego fija el modelo más económico que cumpla su nivel de calidad.

Cómo funciona

Defina un escenario

Un escenario de benchmark es una prueba de enriquecimiento guardada y reutilizable: un esquema, una entrada de entidad fija (claves de búsqueda o JSON en bruto), una estrategia de enriquecimiento, idiomas, las opciones de esquema de respuesta / salida estructurada estricta y cualquier adjunto. También contiene su referencia dorada y cómo se evalúan los resultados con respecto a ella (un modelo juez opcional, un modelo de embedding y un umbral de rigurosidad). Defínalo una vez y reutilícelo en cada modelo que desee comparar.

Ejecútelo en varios modelos

Una vez que el escenario tiene una referencia verificada, ejecútelo con los modelos activos de un proveedor o con todos los modelos activos a la vista. Cada modelo se enriquece de forma independiente —sin fusión—, de modo que obtiene un resultado limpio y comparable por modelo. El progreso se transmite en vivo y cada resultado correcto se puntúa automáticamente frente a la referencia a medida que finaliza la ejecución.

Comparar salida y coste

Cada ejecución se guarda con su salida estructurada, estado de éxito, recuentos de tokens, tiempo de procesamiento y coste total facturado. Expanda cualquier fila para inspeccionar la salida JSON o saltar al registro de enriquecimiento subyacente.

Vuelva a ejecutar para actualizar

Volver a ejecutar un escenario en el mismo modelo sobrescribe su resultado anterior, por lo que la tabla siempre refleja la ejecución más reciente. Si edita la configuración de un escenario, los resultados anteriores se marcan como obsoletos hasta que los vuelva a ejecutar. Establezca Ejecuciones por modelo en 2 o 3 y cada modelo se evaluará ese número de veces: la tabla conserva la media de coste, calidad y velocidad, además de una dispersión de consistencia (los modelos varían de una ejecución a otra), con aproximadamente ese múltiplo de créditos.

Lectura de los resultados

La tabla de resultados está diseñada para la comparación. Una franja de resumen en la parte superior destaca la tasa de éxito y los modelos más económico y más rápido que tuvieron éxito. Cada columna —modelo, estado, estrategia, coste, tokens y tiempo— es ordenable, de modo que un clic clasifica los modelos por precio o latencia. Filtre por nombre de modelo, estado o estrategia para acotar la vista, y expanda cualquier fila para leer la salida estructurada completa o abrir el registro de enriquecimiento subyacente.

Iterar: reintentar y desactivar

La evaluación con benchmarks es iterativa. Marque filas con las casillas (mayús-clic para seleccionar un rango) y luego use el menú ··· para actuar sobre un subconjunto sin volver a ejecutarlo todo:

Reintentar seleccionados / fallidos / obsoletos — vuelve a ejecutar solo esos modelos; los resultados se sobrescriben en su lugar. Fallidos y obsoletos abarcan deliberadamente todo el conjunto de resultados, de modo que un filtro activo nunca oculta un objetivo de reintento.
Desactivar fallidos / seleccionados — apague los modelos para que dejen de aparecer en los selectores de enriquecimiento. Útil para depurar modelos que fallan sistemáticamente con su esquema o cuya salida no alcanzó su nivel.

Defina una referencia dorada (obligatoria para el benchmark)

Cada escenario contiene un resultado de referencia —la salida esperada para su entidad— y un escenario solo se puede someter a benchmark una vez que esa referencia esté verificada. Hasta entonces no aparecerá en ningún menú de ejecución. La referencia es la base para juzgar la calidad: cuánto se acerca cada modelo, campo por campo, y (para listas como el reparto de una película) cuántos de los elementos correctos encontró realmente. Usted la define —junto con el modelo juez, el modelo de embeddings y el nivel de rigor usado para calificarla— directamente en el editor de escenarios.

Constrúyalo de dos maneras. Genérelo: adjunte un documento que contenga los valores correctos (una hoja de datos, una página oficial), active la búsqueda web y ejecute algunos modelos potentes: extraen la respuesta de su fuente en lugar de la memoria, de modo que el resultado se basa en la verdad, no en conjeturas. O pegue un resultado fiable que ya tenga. En cualquier caso, revisa el JSON, corrige lo que sea necesario y lo marca como verificado: una aprobación explícita de que esta es la respuesta de referencia.

Como la referencia está fundamentada y verificada por humanos una sola vez, sirve también como un patrón de confianza que reutiliza en cada modelo y en cada ejecución futura.

Dónde encontrarlo

Los benchmarks se encuentran en Gestión de modelos → Benchmarks (disponible para propietarios y administradores de la organización). Cree y gestione escenarios allí, o inicie una ejecución desde cualquiera de estos cuatro lugares: el botón Evaluar modelos de la barra de herramientas (todos los modelos activos en la vista), la acción Evaluar modelos en la fila de cualquier proveedor (los modelos activos de ese proveedor), el menú desplegable Benchmark que aparece al seleccionar modelos en el panel Modelos (los modelos seleccionados), o la acción Evaluar modelo en la fila de un único modelo.

Costo y facturación

Las ejecuciones de benchmark realizan llamadas reales al LLM y deducen créditos según el uso real, exactamente igual que un enriquecimiento normal. El cuadro de diálogo de confirmación le indica cuántos modelos está a punto de ejecutar antes de que se produzca cualquier gasto. Cada resultado guardado muestra su coste facturado, por lo que un benchmark sirve también como herramienta de comparación de costes.

Puntuación de benchmark

Califique los resultados frente a una referencia de oro — equivalencia, F1 de arrays, subpuntuaciones.

Modelos y precios

Gestione modelos, sincronice precios y ejecute comprobaciones de estado.

Estrategias de enriquecimiento

Pasada única frente a dominios expertos frente a multiespecialización.

Optimización de costos

Mantenga bajo el coste del enriquecimiento con almacenamiento en caché y controles de acceso.

Panel de costos

Analice el gasto con series temporales y desgloses por modelo.