Fluxo de enriquecimento - Documentação do Entity Enricher

Fluxo de enriquecimento

Um guia passo a passo de como o Entity Enricher processa uma única entidade — desde a entrada, passando pela classificação e execução paralela de modelos, até à saída estruturada.

O Pipeline num Relance

Entrada

JSON da entidade
+ Esquema

Classificação

Verificação de tipo
opcional

Modelos em paralelo

Claude

financeiro
regulamentar
geral

GPT-4

financeiro
regulamentar
geral

Validar

Verificação de tipo
Autocorreção

Saída

Estruturado
JSON por modelo

Passo 1: Configurar o Enriquecimento

Abra a página do Editor de Esquemas e configure o seu enriquecimento. Um assistente de fluxo de trabalho guia-o pelas etapas do pipeline: Dados de Amostra, Esquema, Enriquecimento e Resultados.

Painel do Esquema (à esquerda)

Cole uma amostra JSON para gerar automaticamente um esquema e, em seguida, explore a árvore de propriedades interativa. Edite propriedades, adicione domínios de especialização e marque campos como chaves de pesquisa ou preservados.

Painel de enriquecimento (à direita)

Configure as opções de enriquecimento (estratégia, modelos, idiomas, classificação, além do schema de resposta e das opções de saída estruturada estrita) e preencha as chaves de pesquisa da entidade (nome, site, país, etc.) para identificar a entidade.

Painel de Resultados

Mostra o progresso e os resultados em tempo real para cada modelo. Ao utilizar vários modelos, aparece um botão “Combinar Resultados” para a fusão.

Passo 2: Classificação Preliminar (Opcional)

Se você tiver selecionado um model de classification, é executada primeiro uma chamada rápida e económica ao LLM para verificar se a entity corresponde ao tipo do schema. Isto evita desperdiçar tokens em enrichment quando a entity não corresponde. Saiba mais na documentação de Classification.

Não bloqueante: Se a classificação falhar por qualquer motivo, o enriquecimento prossegue normalmente. A classificação é puramente informativa — adiciona contexto aos prompts de enriquecimento, mas nunca bloqueia o pipeline.

Passo 3: Execução da Estratégia

Cada model selecionado processa a entity utilizando a estratégia escolhida. Quando são selecionados vários models, estes são executados em paralelo entre providers (o Claude e o GPT-4 são executados em simultâneo), enquanto os models do mesmo provider são executados sequencialmente para respeitar os limites de taxa.

Exemplo de multi-especialização (3 domínios)

Dividir o schema por especialização

As propriedades são agrupadas pelo seu domínio de especialização: campos financeiros, campos regulatórios, campos gerais.

Execute chamadas LLM em paralelo

Cada especialização recebe o seu próprio prompt focado, apenas com as propriedades relevantes do schema. Todas são executadas em simultâneo.

Combinar resultados progressivamente

À medida que cada domínio de expertise é concluído, o respetivo resultado é fundido no resultado acumulado. Você vê resultados parciais em tempo real.

Aplicar lógica de preservação

Os valores originais dos campos marcados como 'preserve' são restaurados, garantindo que os seus dados de entrada permanecem intactos.

Passo 4: Validação e autocorreção

Cada resposta do LLM é validada em relação ao seu schema em tempo real. Quando o output não corresponde aos tipos ou restrições esperados, o sistema envia automaticamente os erros de volta ao LLM para correção.

O que é corrigido automaticamente:

String em vez de número

"42.2" torna-se 42.2

Objetos indexados como arrays

{"0": "a", "1": "b"} torna-se ["a", "b"]

Nulos em string

"null" ou "None" torna-se um null real

Campos obrigatórios em falta

Erro reenviado, o LLM preenche-os

Até 5 tentativas automáticas de repetição por chamada de LLM. Cada tentativa inclui o erro de validação específico para que o LLM saiba exatamente o que corrigir.

Impor a saída na origem

Dois botões opcionais pedem ao provider que restrinja a saída antes de esta ser devolvida, para que menos respostas precisem de correção à partida. Ambos se aplicam apenas a models que os suportam; tudo continua a recorrer ao ciclo de validação e repetição acima.

Esquema de resposta

Envia o seu esquema no canal nativo de esquema de resposta do fornecedor, para que o JSON seja imposto no lado do servidor. Desativado por predefinição — caso contrário, os modelos capazes usam o canal de chamada de ferramentas.

Saída estruturada estrita

Restringe a descodificação ao esquema (sem desvios) em qualquer canal estruturado utilizado. Ativado por predefinição; ignorado silenciosamente pelos modelos que não o conseguem aplicar.

Passo 5: Streaming em tempo real

O Entity Enricher usa Server-Sent Events (SSE) para transmitir o progresso em tempo real. Não tem de esperar que todos os modelos concluam — os resultados aparecem progressivamente à medida que cada domínio de especialização ou modelo termina.

Cronologia de eventos (exemplo com 2 modelos, 3 especializações)

0.0sstartedA tarefa começa, 2 models em fila

0.1sclassification_startedA verificação prévia começa

0.8sclassification_completedEntity confirmada como "match" (95%)

0.9smodel_startedClaude e GPT-4 iniciam em paralelo

1.2sexpertise_completedClaude: parte financeira concluída, resultado parcial transmitido

1.5sexpertise_completedClaude: parte geral concluída, resultado atualizado

1.8sexpertise_completedClaude: regulatório concluído, resultado completo pronto

1.9smodel_completedClaude terminou com output estruturado completo

2.5smodel_completedO GPT-4 terminou com saída estruturada completa

2.5scompletedTodos os modelos concluídos, o stream fecha

Passo 6: Rever resultados

Cada modelo tem o seu próprio painel de resultados, que mostra o output JSON estruturado, distintivos de progresso por especialização, utilização de tokens, custo e tempo de processamento. Ao utilizar a estratégia multi-especialização, os distintivos de especialização atualizam-se em tempo real à medida que cada domínio termina.

O que vê por modelo:

Emblema de estado — Em espera, Em execução, Sucesso, Falhou ou Parcial
Emblemas de especialização — Cápsulas coloridas que mostram o progresso por domínio (azul = em execução, verde = concluído, vermelho = falhado)
JSON progressivo — O resultado é atualizado após a conclusão de cada especialização
Métricas — Tempo de processamento, contagem de tokens, custo em USD
Registo de progresso — Entradas com data e hora para cada evento

Gerir sucesso parcial

Ao utilizar a estratégia multi-expertise domain, algumas expertise domains podem falhar enquanto outras têm êxito. Em vez de descartar tudo, o Entity Enricher devolve o resultado combinado das expertise domains bem-sucedidas com um estado “Parcial”. Pode então repetir apenas as expertise domains que falharam sem voltar a executar todo o enrichment.

Exemplo: Se 2 de 3 especializações forem bem-sucedidas, obtém um resultado estruturado que abrange os domínios bem-sucedidos. A especialização falhada pode ser repetida e os seus resultados serão fundidos no resultado existente.

O Que Acontece a Seguir?

Após a conclusão do enriquecimento, os seus resultados são guardados na página Registos para referência futura. Se usou vários modelos, pode combinar os resultados com a Fusão Multimodelo.

Estratégias

Passagem única vs multiespecialização

Classificação

Verificação prévia do tipo de entidade

Fusão

Combinar resultados de vários modelos