Classificação prévia - Documentação do Entity Enricher

Classificação prévia

A classificação prévia verifica se uma entidade corresponde ao tipo de schema esperado antes de o enriquecimento começar. Este passo opcional evita alucinações e desperdício de tokens quando as entidades não correspondem ao seu schema.

Porquê classificar antes de enriquecer?

Os LLMs estão ansiosos por ajudar. Quando lhes é pedido que enriqueçam uma entidade com base num esquema, produzem uma saída estruturada mesmo que a entidade não corresponda de todo ao tipo do esquema. Isto leva a dados alucinados que parecem plausíveis, mas estão completamente errados.

O Problema da Alucinação
Sem Classificação

Esquema: “Planeta” — Entidade: “Titan”

O LLM trata Titan como um planeta e inventa dados: período orbital, composição da atmosfera, número de luas — todos com aparência plausível, mas errados. Titan é, na verdade, uma lua de Saturno.

Com classificação

A classificação deteta: “incompatibilidade — Titã é uma lua, não um planeta”

Os modelos de enriquecimento recebem este contexto, definem os campos irrelevantes como null e preenchem apenas as propriedades que realmente se aplicam à entidade.

Como Funciona

A classificação é executada como uma única chamada rápida ao LLM antes de qualquer modelo de enrichment começar. Utiliza um modelo económico e rápido (como o Claude Haiku ou o GPT-4o Mini) para minimizar o custo.

1
Enviar o tipo de esquema e os dados da entidade
O modelo de classificação recebe o nome do schema, a descrição e os dados da entidade (truncados a 3.000 caracteres para manter os custos baixos).
2
Receba classificação estruturada
O modelo devolve uma resposta estruturada com um estado (match, mismatch, unknown ou ambiguous), uma descrição do que a entidade realmente é, o nível de confiança e o raciocínio.
3
Injetar contexto no enriquecimento
O resultado da classificação é anteposto a cada prompt de enriquecimento como uma secção “Classificação prévia”. Isto fornece aos modelos de enriquecimento contexto crítico sobre o tipo de entidade.

Quatro estados de classificação

Correspondência

A entidade corresponde ao tipo do schema. O enriquecimento prossegue com elevada confiança.

Efeito do Prompt
Confirma o tipo de entidade e fornece contexto adicional aos modelos de enriquecimento.
Exemplo
Esquema "Pharmaceutical Company", Entidade "Sanofi" — confirmada como empresa farmacêutica.
Incompatibilidade

A entidade é de um tipo diferente do que o schema espera. A classificação explica o que a entidade realmente é.

Efeito do Prompt
Avisa os modelos de enriquecimento de que a entidade não corresponde. Instrui-os a usar null para campos irrelevantes.
Exemplo
Esquema "Planet", Entidade "Titan" — identificada como uma lua de Saturno, não um planeta.
Desconhecido

A entidade não pode ser identificada com certeza. O LLM não tem informação suficiente para a classificar.

Efeito do Prompt
Indica aos modelos de enriquecimento que usem null em caso de incerteza, em vez de adivinharem.
Exemplo
Esquema "Pharmaceutical Company", Entidade "XYZ Corp" — informação insuficiente para determinar o tipo de entidade.
Ambíguo

Existem várias interpretações válidas. A classificação lista as alternativas.

Efeito do Prompt
Lista as possíveis interpretações e pede aos modelos de enriquecimento que escolham a mais provável.
Exemplo
Esquema "Company", Entidade "Mercury" — pode ser o planeta, o elemento ou a Mercury Insurance.

Propriedades-chave

Não bloqueante

A classificação é meramente consultiva. Se a chamada de classificação falhar por qualquer motivo (erro do modelo, timeout, limite de taxa), o enrichment prossegue normalmente sem contexto de classificação. Isto garante que a etapa opcional de classificação nunca impede a conclusão do enrichment.

Económico

A classificação foi concebida para ser executada em modelos rápidos e económicos. Envia um payload mínimo (nome do schema, descrição e dados da entity truncados) e espera uma pequena resposta estruturada. O custo típico é uma fração do próprio enrichment — bem vale a melhoria de precisão.

Feedback em Tempo Real

A interface mostra o progresso da classificação em tempo real através de Server-Sent Events. Um evento classification_started dispara quando a verificação começa, seguido de classification_completed com o estado, a confiança e a descrição da entidade. O resultado aparece como um banner acima dos resultados dos modelos.

Cancelável

Se você cancelar o enrichment durante a fase de classification, o trabalho é interrompido de imediato sem iniciar quaisquer models de enrichment. Não se gastam tokens desnecessários.

Quando Ativar a Classification

Recomendado
  • Esquemas com um tipo de entidade restrito (por exemplo, “Empresa Farmacêutica”)
  • Dados de entrada que podem conter tipos de entidade mistos
  • Enriquecimento em lote com entidades de diversas fontes
  • Ao utilizar modelos de enrichment dispendiosos e quando pretende evitar desperdício
Não Necessário
  • Schemas genéricos que aceitam qualquer entity (por exemplo, “Organization”)
  • Dados de entrada curados em que controla o tipo de entidade
  • Iterações rápidas em que a velocidade importa mais do que a precisão
  • Esquemas sem uma definição clara de tipo de entidade

Como ativar

No Editor de schemas ou na barra lateral de Enrichment em batch, procure o menu pendente “Classification”. Selecione um model rápido e económico (Claude Haiku, GPT-4o Mini ou semelhante). A classification será executada automaticamente antes de começar o enrichment de cada entity.

Ao utilizar a API REST, inclua o campo classification_model no seu pedido de enrichment com a chave composta do modelo (por exemplo, anthropic::claude-haiku-4-5).