Processamento em Lote - Documentação do Entity Enricher

Processamento em Lote

Enriqueça até 100 entidades em paralelo com acompanhamento de progresso em tempo real, fusão multimodelo automática e exportação para JSON ou Excel.

Métodos de entrada

O enriquecimento em lote suporta duas formas de fornecer dados de entidades:

Editor de JSON

Cole ou escreva diretamente um array JSON de entidades. O editor oferece realce de sintaxe, marcadores de validação e mantém os seus dados entre sessões no armazenamento local.

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

Obtenção de URL

Obtenha entidades a partir de qualquer endpoint de API REST. O sistema extrai automaticamente os arrays dos wrappers de resposta comuns.

Autenticação suportada:

NenhumBearer TokenCabeçalho da chave de APIAutenticação básica

Se a API devolver um objeto, o sistema verifica chaves como data, results, items à procura de um array incorporado.

Seleção e validação de entidades

Após carregar as entidades, estas aparecem numa lista selecionável com o estado de validação. Pode escolher que entidades incluir no lote:

Seleção múltipla— Clique para selecionar entidades individuais. Shift+clique para intervalos. Ctrl+A para selecionar tudo, Ctrl+D para desmarcar tudo.

Edição inline— Clique nos campos de chave de pesquisa (nome, país, etc.) para os editar diretamente na lista antes do enriquecimento.

Validação— Cada entidade é validada em relação às chaves de pesquisa do schema. Pelo menos uma chave de pesquisa tem de estar preenchida. As entidades inválidas mostram avisos, mas ainda podem ser selecionadas.

Processamento seletivo— Apenas as entidades selecionadas são enviadas para enriquecimento. Desmarque as entidades que não pretende processar.

Configuração

A barra lateral reflete as opções de configuração de enriquecimento individual:

Opção	Descrição
Esquema	Schema de destino que define a estrutura de saída do enriquecimento
Estratégia	Passagem única, domínios de especialista ou multiespecialização (chamadas paralelas por domínio)
Modelos	Um ou mais modelos de IA a executar por entidade. Vários modelos permitem a fusão automática.
Idiomas	Idiomas para enriquecimento multilingue de campos (por exemplo, inglês + francês)
Classificação	Modelo rápido opcional para verificação do tipo de entity antes do enrichment
Arbitragem	Model para resolução de conflitos baseada em LLM durante a fusion. Se não estiver definido, é usada a fusão baseada em regras.

Estimativa de Custos

Antes de iniciar um lote, uma caixa de diálogo de confirmação mostra uma estimativa de custo e um resumo. A estimativa é calculada com base no número de propriedades, no preço dos modelos e no número de entidades e modelos selecionados. Aparece um aviso quando o número total de chamadas ao LLM excede 100.

Entities

Modelos

Total de Chamadas

~40

Custo est.

~$1.50

Execução em paralelo

Todas as entidades selecionadas são processadas em simultâneo. Cada entidade passa pelo pipeline de enriquecimento completo de forma independente:

Pipeline por entidade

Classificação (opcional) — Um modelo rápido verifica o tipo de entidade. No modo em lote, as incompatibilidades não pausam a tarefa; o contexto é transmitido.
Enriquecimento multimodelo — Cada modelo selecionado enriquece a entidade em paralelo, com limitação de taxa por fornecedor.
Fusão automática (quando 2+ modelos têm sucesso) — Os resultados são fundidos automaticamente através de deteção e resolução de conflitos.

Limitação de Taxa

Um limitador de taxa global evita sobrecarregar os fornecedores de IA. Todas as entidades partilham os mesmos limites de concorrência por fornecedor (normalmente 5 chamadas simultâneas por fornecedor). Com 20 entidades e 2 modelos, até 5 chamadas são executadas em simultâneo por fornecedor — as restantes aguardam disponibilidade. Isto garante uma execução fiável sem atingir os limites de taxa da API.

Progresso em Tempo Real

O painel de resultados apresenta o progresso em tempo real utilizando Server-Sent Events (SSE). Cada entidade tem um cartão recolhível que se atualiza em tempo real:

Pendente

A aguardar o início do processamento

A executar

A ser enriquecida neste momento, com selos de progresso de expertise a mostrar a conclusão por domínio

Concluído

Todos os modelos terminaram com êxito. O cartão fecha automaticamente.

Parcial

Alguns modelos ou especializações falharam. Resultados parciais disponíveis.

Falhou

Todos os modelos falharam para esta entidade. Detalhes do erro apresentados.

Cancelamento e Tratamento de Erros

Você pode cancelar um batch em execução a qualquer momento. O cancelamento é cooperativo — as entities já em curso concluem a sua chamada de LLM atual, mas não são iniciadas novas chamadas. Os resultados parciais das entities concluídas são preservados.

Resiliência a erros

O processamento em lote foi concebido para ser resiliente. As falhas individuais não interrompem o lote:

Se a classification falhar para uma entity, o enrichment prossegue sem contexto
Se um modelo falhar, os outros modelos para essa entity continuam
Se todos os modelos falharem para uma entity, esta é marcada como falhada enquanto as restantes prosseguem
Os modelos que devolvem erros de “não encontrado” são desativados automaticamente

Formatos de exportação

Após a conclusão do lote, exporte os resultados em três formatos. Para cada entidade, é preferido o resultado da fusão, se disponível; caso contrário, é usado o melhor resultado de modelo.

Ficheiro JSON

Transfira os resultados completos como um ficheiro JSON estruturado com todos os dados da entidade, os resultados dos modelos e os metadados de fusão.

Área de transferência

Copie os resultados JSON diretamente para a área de transferência para colar noutras ferramentas ou scripts.

Excel

Um livro de trabalho com três folhas: Resultados (uma linha por entidade com propriedades aplanadas), Resumo (metadados do lote, modelos, custos) e Conflitos (detalhes de conflitos por entidade com o raciocínio de resolução).

Limites

Limite	Valor
Máx. de entidades por lote	100
Tamanho máx. dos dados da entidade	50 000 caracteres
Comprimento máx. do prompt	100 000 caracteres
Tempo limite da obtenção de URL	30 segundos