Benchmarks de Model - Documentação do Entity Enricher

Benchmarks de Model

Os cenários de benchmark permitem-lhe comparar modelos LLM numa tarefa de enriquecimento real e repetível — de forma equitativa — capturando o resultado e o custo total de cada modelo para que possa escolher o modelo certo para a tarefa.

Porquê fazer benchmark?

Os modelos diferem enormemente em precisão, fiabilidade da saída estruturada e preço. Em vez de adivinhar, um cenário de benchmark executa o mesmo esquema e entidade em vários modelos de uma só vez e regista o que cada um produziu e quanto custou. Compare com base em evidências e, depois, fixe o modelo mais barato que cumpre o seu nível de qualidade.

Como funciona

Defina um cenário

Um cenário de benchmark é um teste de enriquecimento guardado e reutilizável: um esquema, uma entrada de entidade fixa (chaves de pesquisa ou JSON em bruto), uma estratégia de enriquecimento, idiomas, os interruptores de response-schema / strict-structured-output e quaisquer anexos. Contém também a sua referência de ouro e a forma como os resultados são avaliados em relação a ela (um modelo juiz opcional, um modelo de embedding e um limiar de rigor). Defina-o uma vez e reutilize-o em todos os modelos que quiser comparar.

Execute-o em vários modelos

Assim que o cenário tiver uma referência verificada, execute-o contra os modelos ativos de um provedor ou todos os modelos ativos em vista. Cada modelo é enriquecido de forma independente — sem fusão — para que obtenha um resultado limpo e lado a lado por modelo. O progresso é transmitido em direto e cada resultado bem-sucedido é pontuado automaticamente em relação à referência à medida que a execução termina.

Comparar resultado e custo

Cada execução é guardada com o seu resultado estruturado, estado de sucesso, contagens de tokens, tempo de processamento e custo total faturado. Expanda qualquer linha para inspecionar o resultado JSON ou saltar para o registo de enriquecimento subjacente.

Voltar a executar para atualizar

Voltar a executar um scenario no mesmo model substitui o resultado anterior, pelo que a tabela reflete sempre a execução mais recente. Edite a configuração de um scenario e os resultados mais antigos são marcados como desatualizados até os voltar a executar. Defina Execuções por modelo como 2 ou 3 e cada model é avaliado esse número de vezes — a tabela mantém a média de custo, qualidade e velocidade, além de uma dispersão de consistência (os modelos variam entre execuções), a aproximadamente esse múltiplo dos credits.

Ler os resultados

A tabela de resultados foi concebida para comparação. Uma faixa de resumo no topo destaca a taxa de sucesso e os modelos mais baratos e mais rápidos que tiveram sucesso. Cada coluna — modelo, estado, estratégia, custo, tokens e tempo — é ordenável, pelo que um clique ordena os modelos por preço ou latência. Filtre por nome de modelo, estado ou estratégia para restringir a vista e expanda qualquer linha para ler a saída estruturada completa ou abrir o registo de enriquecimento subjacente.

Iterar: repetir e desativar

A avaliação por benchmark é iterativa. Marque as linhas com as caixas de seleção (shift-clique para um intervalo) e use o menu ··· para atuar sobre um subconjunto sem executar tudo novamente:

Repetir selecionados / falhados / obsoletos — volte a executar apenas esses modelos; os resultados são substituídos no lugar. Falhados e obsoletos abrangem deliberadamente todo o conjunto de resultados, pelo que um filtro ativo nunca oculta um alvo de repetição.
Desativar falhados / selecionados — desligue modelos para que deixem de aparecer nos seletores de enriquecimento. Útil para eliminar modelos que falham sistematicamente o seu esquema ou cujo resultado não atingiu o seu nível.

Defina uma referência de ouro (necessária para avaliar em benchmark)

Cada cenário contém um resultado de referência — o resultado esperado para a sua entidade — e um cenário só pode ser avaliado por benchmark depois de essa referência estar verificada. Até lá, não aparecerá em nenhum menu de execução. A referência é a base para julgar a qualidade: quão perto chega cada modelo, campo a campo, e (para listas como o elenco de um filme) quantos dos itens corretos encontrou efetivamente. Define-a — juntamente com o modelo de avaliação, o modelo de embedding e o rigor usados para a classificar — diretamente no editor de cenários.

Crie de duas formas. Gere: anexe um documento que contenha os valores corretos (uma ficha técnica, uma página oficial), ative a pesquisa web e execute alguns modelos fortes — eles extraem a resposta da sua fonte em vez da memória, pelo que o resultado se baseia na verdade e não em suposições. Ou cole um resultado fiável que já tenha. Em qualquer dos casos, reveja o JSON, corrija o que for necessário e marque-o como verificado — uma confirmação explícita de que esta é a resposta de referência.

Como a referência é fundamentada e verificada por humanos uma única vez, serve também de padrão fiável que você reutiliza em todos os modelos e em todas as execuções futuras.

Onde encontrá-lo

Os benchmarks estão em Gestão de Modelos → Benchmarks (disponível para proprietários e administradores da organização). Crie e faça a gestão de cenários aí, ou inicie uma execução a partir de qualquer um de quatro locais: o botão Fazer benchmark dos modelos na barra de ferramentas (todos os modelos ativos em vista), a ação Fazer benchmark dos modelos em qualquer linha de fornecedor (os modelos ativos desse fornecedor), o menu suspenso Benchmark que aparece quando seleciona modelos no painel Modelos (os modelos selecionados), ou a ação Fazer benchmark do modelo em qualquer linha de um único modelo.

Custo e faturação

As execuções de benchmark fazem chamadas reais ao LLM e deduzem créditos com base no uso real, exatamente como um enriquecimento normal. A caixa de diálogo de confirmação indica quantos modelos está prestes a executar antes de qualquer gasto acontecer. Cada resultado guardado mostra o seu custo faturado, por isso um benchmark serve também de ferramenta de comparação de custos.

Pontuação de Benchmark

Avalie os resultados face a uma referência de ouro — equivalência, F1 de array, subpontuações.

Modelos e preços

Faça a gestão dos modelos, sincronize preços e execute verificações de estado.

Estratégias de Enriquecimento

Passagem única vs domínios de especialista vs multiespecialização.

Otimização de Custos

Mantenha o enriquecimento económico com cache e controlo de acesso.

Painel de Custos

Analise os gastos com séries temporais e discriminações por modelo.