Classificação prévia - Documentação do Entity Enricher

Classificação prévia

A classificação prévia verifica se uma entidade corresponde ao tipo de schema esperado antes de o enriquecimento começar. Este passo opcional evita alucinações e desperdício de tokens quando as entidades não correspondem ao seu schema.

Porquê classificar antes de enriquecer?

Os LLMs estão ansiosos por ajudar. Quando lhes é pedido que enriqueçam uma entidade com base num esquema, produzem uma saída estruturada mesmo que a entidade não corresponda de todo ao tipo do esquema. Isto leva a dados alucinados que parecem plausíveis, mas estão completamente errados.

O Problema da Alucinação

Sem Classificação

Esquema: “Planeta” — Entidade: “Titan”

O LLM trata Titan como um planeta e inventa dados: período orbital, composição da atmosfera, número de luas — todos com aparência plausível, mas errados. Titan é, na verdade, uma lua de Saturno.

Com classificação

A classificação deteta: “incompatibilidade — Titã é uma lua, não um planeta”

Os modelos de enriquecimento recebem este contexto, definem os campos irrelevantes como null e preenchem apenas as propriedades que realmente se aplicam à entidade.

Como Funciona

A classificação é executada como uma única chamada rápida ao LLM antes de qualquer modelo de enrichment começar. Utiliza um modelo económico e rápido (como o Claude Haiku ou o GPT-4o Mini) para minimizar o custo.

Enviar o tipo de esquema e os dados da entidade

O modelo de classificação recebe o nome do schema, a descrição e os dados da entidade (truncados a 3.000 caracteres para manter os custos baixos).

Receba classificação estruturada

O modelo devolve uma resposta estruturada com um estado (match, mismatch, unknown ou ambiguous), uma descrição do que a entidade realmente é, o nível de confiança e o raciocínio.

Injetar contexto no enriquecimento

O resultado da classificação é anteposto a cada prompt de enriquecimento como uma secção “Classificação prévia”. Isto fornece aos modelos de enriquecimento contexto crítico sobre o tipo de entidade.

Quatro estados de classificação

Correspondência

A entidade corresponde ao tipo do schema. O enriquecimento prossegue com elevada confiança.

Efeito do Prompt

Confirma o tipo de entidade e fornece contexto adicional aos modelos de enriquecimento.

Exemplo

Esquema "Pharmaceutical Company", Entidade "Sanofi" — confirmada como empresa farmacêutica.

Incompatibilidade

A entidade é de um tipo diferente do que o schema espera. A classificação explica o que a entidade realmente é.

Efeito do Prompt

Avisa os modelos de enriquecimento de que a entidade não corresponde. Instrui-os a usar null para campos irrelevantes.

Exemplo

Esquema "Planet", Entidade "Titan" — identificada como uma lua de Saturno, não um planeta.

Desconhecido

A entidade não pode ser identificada com certeza. O LLM não tem informação suficiente para a classificar.

Efeito do Prompt

Indica aos modelos de enriquecimento que usem null em caso de incerteza, em vez de adivinharem.

Exemplo

Esquema "Pharmaceutical Company", Entidade "XYZ Corp" — informação insuficiente para determinar o tipo de entidade.

Ambíguo

Existem várias interpretações válidas. A classificação lista as alternativas.

Efeito do Prompt

Lista as possíveis interpretações e pede aos modelos de enriquecimento que escolham a mais provável.

Exemplo

Esquema "Company", Entidade "Mercury" — pode ser o planeta, o elemento ou a Mercury Insurance.

Propriedades-chave

Não bloqueante

A classificação é meramente consultiva. Se a chamada de classificação falhar por qualquer motivo (erro do modelo, timeout, limite de taxa), o enrichment prossegue normalmente sem contexto de classificação. Isto garante que a etapa opcional de classificação nunca impede a conclusão do enrichment.

Económico

A classificação foi concebida para ser executada em modelos rápidos e económicos. Envia um payload mínimo (nome do schema, descrição e dados da entity truncados) e espera uma pequena resposta estruturada. O custo típico é uma fração do próprio enrichment — bem vale a melhoria de precisão.

Feedback em Tempo Real

A interface mostra o progresso da classificação em tempo real através de Server-Sent Events. Um evento classification_started dispara quando a verificação começa, seguido de classification_completed com o estado, a confiança e a descrição da entidade. O resultado aparece como um banner acima dos resultados dos modelos.

Cancelável

Se você cancelar o enrichment durante a fase de classification, o trabalho é interrompido de imediato sem iniciar quaisquer models de enrichment. Não se gastam tokens desnecessários.

Quando Ativar a Classification

Recomendado

Esquemas com um tipo de entidade restrito (por exemplo, “Empresa Farmacêutica”)
Dados de entrada que podem conter tipos de entidade mistos
Enriquecimento em lote com entidades de diversas fontes
Ao utilizar modelos de enrichment dispendiosos e quando pretende evitar desperdício

Não Necessário

Schemas genéricos que aceitam qualquer entity (por exemplo, “Organization”)
Dados de entrada curados em que controla o tipo de entidade
Iterações rápidas em que a velocidade importa mais do que a precisão
Esquemas sem uma definição clara de tipo de entidade

Como ativar

No Editor de schemas ou na barra lateral de Enrichment em batch, procure o menu pendente “Classification”. Selecione um model rápido e económico (Claude Haiku, GPT-4o Mini ou semelhante). A classification será executada automaticamente antes de começar o enrichment de cada entity.

Ao utilizar a API REST, inclua o campo classification_model no seu pedido de enrichment com a chave composta do modelo (por exemplo, anthropic::claude-haiku-4-5).

Fluxo de enriquecimento

Apresentação completa do pipeline

Estratégias

Passagem única vs multiespecialização

Fusão Multi-Modelo

Combinar resultados de vários modelos

Classificação prévia

Porquê classificar antes de enriquecer?

Como Funciona

Quatro estados de classificação

Propriedades-chave

Não bloqueante

Económico

Feedback em Tempo Real

Cancelável

Quando Ativar a Classification

Como ativar

Documentação relacionada