Conceitos Fundamentais - Documentação do Entity Enricher

Conceitos Fundamentais

O Entity Enricher transforma dois tipos de conhecimento em dados estruturados e validados: o que os Large Language Models já sabem e o que permanece por ler nos seus próprios arquivos — documentos PDF, imagens, gravações de áudio, ficheiros de escritório. Cada objeto extraído recebe uma identidade semântica estável, para que os enriquecimentos se acumulem num sistema de informação coerente, em vez de uma pilha de resultados pontuais.

A ideia central

Pense nos LLM como conhecimento humano destilado — milhares de milhões de documentos, bases de dados e páginas web comprimidos em redes neuronais consultáveis. O Entity Enricher fornece a interface para extrair este conhecimento num formato estruturado e fiável que se adequa ao seu modelo de dados. E como os modelos modernos também conseguem ler PDFs, ver imagens e ouvir áudio, a mesma interface extrai estrutura do seu próprio conteúdo: os contratos, relatórios, digitalizações e gravações que a sua empresa acumulou ao longo dos anos.

Os Seus Dados e Arquivos
Registos parciais
Identificadores em bruto
PDFs e digitalizações
Imagens e áudio
Esquema + LLM
“O que quero saber?”
O Seu Sistema de Informação
Perfis estruturados
Classificações
Campos multilingues
IDs semânticos estáveis

Duas fontes de conhecimento

Cada enriquecimento baseia-se numa destas fontes ou em ambas. Elas complementam-se: o modelo fornece conhecimento do mundo e raciocínio; os seus documentos fornecem os factos que só existem dentro da sua organização.

1. O Conhecimento de Treino do Modelo

Factos públicos sobre empresas, medicamentos, locais, produtos, regulamentos — tudo o que o modelo aprendeu durante o treino. Dê-lhe um identificador (um nome, um site) e um schema, e ele preenche o resto: setor, ano de fundação, sede, mecanismos de ação. Sem documento necessário.

2. Os Seus Arquivos Não Estruturados

O conhecimento que nunca chegou a uma base de dados: contratos, faturas, relatórios de inspeção, formulários digitalizados, fotografias de produtos, chamadas gravadas. Anexe-os a um enriquecimento e o modelo extrai os campos do seu esquema diretamente do respetivo conteúdo — sem OCR, transcrição ou copiar-colar manuais.

Consulte Anexos de Documentos para conhecer os formatos suportados e os modos de entrega.

Três Pilares

1. O Schema: a Sua Pergunta à Base de Conhecimento

Um esquema não é apenas uma estrutura de dados — é uma pergunta formalizada que está a fazer ao conhecimento coletivo da humanidade, ou a um documento específico. Quando define um esquema com propriedades como companyName, industry e headquarters, está essencialmente a perguntar: “Dado um identificador de empresa, indique-me o seu nome, em que setor opera e onde está sediada.”

Conceito de esquemaObjetivo
PropriedadesOs factos específicos que pretende extrair
TiposO formato que espera (string, number, object, array)
Domínios de especializaçãoQual o especialista que deve responder (farmacêutico, financeiro, geográfico)
Chaves de PesquisaIdentificadores que ajudam a localizar a entity na base de conhecimento
ID semânticoUma identidade estável, com âmbito de organização, para que o mesmo objeto do mundo real seja reconhecido nos vários enriquecimentos e nos seus outros sistemas
PreservarCampos a passar inalterados a partir da sua entrada
MultilingueCampos entregues em todos os idiomas em que opera — uma funcionalidade de primeira classe, não um passo de tradução acrescentado

2. O LLM: Conhecimento Consultável, Leitor Multimodal

Os Large Language Models representam um novo tipo de base de conhecimento. Ao contrário das bases de dados tradicionais, que devolvem correspondências exatas em registos armazenados, os LLM compreendem o contexto, raciocinam sobre dados incompletos e generalizam a partir de padrões. E já não se limitam a texto: os modelos com capacidade de visão leem imagens e páginas digitalizadas, os modelos com capacidade de PDF ingerem documentos inteiros e os modelos com capacidade de áudio ouvem gravações.

O Entity Enricher trata múltiplos LLMs como perspetivas de conhecimento diferentes. Cada fornecedor traz os seus próprios pontos fortes — o Claude destaca-se no raciocínio matizado, o GPT-4 tem conhecimento abrangente, o Gemini oferece profundidade multilingue e os modelos locais Ollama mantêm os seus dados privados.

Executar o mesmo enriquecimento em vários fornecedores permite-lhe comparar respostas quanto à confiança, agregar o consenso de vários especialistas e equilibrar custo versus qualidade. Saiba mais sobre isto em Multi-Model Enrichment.

3. O Enriquecimento: Extração Estruturada de Conhecimento

O enriquecimento é o processo de identificar a entidade usando chaves de pesquisa, recuperar conhecimento relevante do LLM e de quaisquer documentos anexados, estruturar a resposta de acordo com o seu esquema, validar que a saída corresponde aos tipos esperados, preservar os seus dados originais onde especificado e, por fim, resolver a identidade — atribuindo a cada objeto o seu ID semântico estável.

Entrada
{ "name": "Novartis", "website": "novartis.com" }
Extrair chaves → Consultar LLM → Validar → Resolver identidade
Saída
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Dos enriquecimentos a um sistema de informação

Cada enriquecimento é independente. Pergunte duas vezes e a mesma coisa do mundo real pode voltar descrita de forma diferente — “Acme Inc.” num dia, “Acme Incorporated” no seguinte; um efeito secundário de um medicamento como “Headache”, “Céphalée” ou “Cephalalgia” consoante o idioma ou o modelo. Para realmente construir sobre dados enriquecidos, precisa de um identificador estável para a mesma entidade.

Um ID semântico é um identificador ao nível da organização que o Entity Enricher atribui a um objeto a partir dos seus campos-chave, correspondido pelo significado, não pela ortografia exata. A mesma entidade resolve-se no mesmo ID ao longo de enriquecimentos, modelos, idiomas e no tempo. É atribuído automaticamente após a execução do modelo — nunca inventado pelo LLM — e pode existir em qualquer objeto: a entidade completa, um objeto aninhado ou cada item de uma lista.

Execução de enriquecimento #1
“Acme Inc.”
mesmo ID semântico
cpt_abc123
Execução n.º 2 — mais tarde, modelo ou idioma diferente
“Acme Incorporated”

É isto que transforma um fluxo de enriquecimentos num sistema de informação que pode expandir e consultar:

UtilizarO que permite
Chave de junçãoUma chave estável para fazer corresponder registos enriquecidos ao seu armazém de dados, CRM ou sistema de dados-mestre
DesduplicaçãoUnir quase-duplicados produzidos em vários lotes, modelos ou anos de documentos numa só identidade
ReconciliaçãoReintroduza um ID semântico conhecido e os novos factos associam-se à entidade que já acompanha, em vez de criar uma nova
Grafo de conhecimentoOs objetos referenciados a partir de vários registos convergem num único nó — as relações tornam-se consultáveis

O funcionamento da resolução (cache de correspondência exata, embeddings, limiares de similaridade) é abordado em IDs semânticos.

A explorar décadas de arquivos

A maioria das empresas está sentada sobre um arquivo que nunca foi estruturado: drives partilhadas de contratos e relatórios, papel digitalizado, anexos de email, reuniões gravadas. Esse arquivo é uma base de dados — apenas nunca lhe foram dadas linhas e colunas. Combinar anexos (documentos como fonte de conhecimento), enriquecimento em lote (processamento paralelo) e IDs semânticos (desduplicação em todo o corpus) transforma-o numa.

Ficheiros de arquivo
Anexar ao enriquecimento
Esquema como a pergunta de extração
Registos estruturados validados
Identidade semântica e desduplicação
A sua base de dados

Consulte Enriquecimento em Batch para ver o fluxo de trabalho em detalhe.

Para Além do Texto: Fontes Multimodais

O conhecimento estruturado não vive apenas em texto. O Entity Enricher aceita os formatos que o seu arquivo realmente contém e encaminha cada um para modelos capazes de o ler.

Documentos PDF
Documentos completos com layout, tabelas e figuras — lidos nativamente por modelos com suporte de PDF
Imagens
Fotos, digitalizações, diagramas, imagens de produtos — interpretados por modelos de visão, sem passo de OCR separado
Áudio
Chamadas, reuniões e notas de voz gravadas — ouvidas diretamente por modelos com capacidade de áudio
Office e texto
Word, Excel, PowerPoint, HTML, CSV, Markdown — texto extraído no servidor e incorporado

Dois modos de entrega tornam isto possível. No modo binário, os bytes originais vão para o modelo, pelo que nada se perde na conversão — o layout de uma tabela, o detalhe de uma foto, as palavras de um orador. No modo de texto inline, o texto é extraído uma vez no carregamento e incorporado em cada prompt, o que funciona com qualquer modelo, independentemente das suas capacidades.

O encaminhamento sensível às capacidades significa que um ficheiro só chega a modelos que o conseguem realmente processar — é avisado antes de um enriquecimento começar, e não depois de este falhar. Os formatos e modos estão detalhados em Anexos de Documentos.

Domínios de especialização: consultar o especialista certo

Nem todo o conhecimento é igual. Uma pergunta sobre mecanismos de fármacos requer uma especialização diferente de uma pergunta sobre estrutura empresarial. Os domínios de especialização encaminham as propriedades do esquema para o especialista certo dentro do LLM, ativando os padrões de conhecimento relevantes para cada domínio.

pharmaceutical
Nomes de medicamentos, mecanismos, indicações, estado regulatório
business_classification
Códigos de indústria, tipos de empresa, segmentos de mercado
geographic
Localizações, regiões, informações específicas de cada país
financial
Receita, capitalização de mercado, rondas de financiamento
temporal
Datas, períodos, eventos históricos
regulatory
Aprovações, licenças, estado de conformidade

Ao utilizar a estratégia multi-expertise domain, cada domínio recebe a sua própria chamada de LLM focada apenas com as propriedades de schema relevantes, melhorando significativamente a qualidade do resultado.

Controlos de qualidade

Validação e autocorreção

Os LLMs podem cometer erros. O Entity Enricher implementa várias camadas de controlo de qualidade para detetar e corrigir erros automaticamente:

  1. Validação de tipos — Garante que a saída corresponde aos tipos do esquema (string, número, booleano, etc.)
  2. Validação de especialização — Verifica se todos os domínios de especialização estão definidos e contêm propriedades
  3. Autocorreção — Quando a validação falha, os erros são reenviados ao LLM para correção automática (até 5 tentativas)
  4. Lógica de preservação — Os valores originais dos campos preservados são restaurados após o enriquecimento, garantindo a integridade dos dados

Chaves de Pesquisa: Ancorar a Identidade Durante o Enriquecimento

As chaves de pesquisa impedem o LLM de alucinar sobre a entidade errada. Desempenham dois papéis:

  • Chaves de pesquisa (nome, website) — Identificadores de consulta que ajudam o LLM a encontrar a entidade correta
  • Chaves de fusão (product_name em arrays) — Chaves de deduplicação para fazer corresponder itens de array ao fundir resultados de vários modelos

O prompt de enriquecimento enfatiza: “Está a enriquecer esta entidade específica identificada por estas chaves de pesquisa.”

As chaves de pesquisa e os IDs semânticos são duas faces da identidade: as chaves de pesquisa ajudam o LLM a encontrar a entidade correta durante a enriquecimento; os IDs semânticos conferem-lhe uma identidade persistente na qual os seus sistemas se apoiam após o enriquecimento.

Classificação prévia

Antes de o enriquecimento começar, um passo opcional de classificação prévia pode verificar se a entidade corresponde efetivamente ao tipo do esquema. Isto evita a alucinação quando as entidades não correspondem — por exemplo, enriquecer “Titã” contra um esquema de “Planeta” quando Titã é, na verdade, uma lua.

Consciência de Custos

As chamadas ao LLM têm custos. O Entity Enricher acompanha o uso de tokens, o custo por fornecedor, o custo por enriquecimento e os gastos ao nível da organização. Isto permite a monitorização de orçamento, a comparação entre fornecedores (custo vs. qualidade) e decisões de otimização, como usar modelos mais baratos para campos simples — o que mais importa ao processar um arquivo de milhares de documentos.

Resumo

ComponentePapel conceptual
EsquemaA pergunta que está a fazer
Fornecedores de LLMDiferentes perspetivas de conhecimento
AnexosOs seus arquivos como fonte de conhecimento (PDF, imagem, áudio, office)
Chaves de PesquisaÂncoras de identidade da entidade durante o enriquecimento
IDs semânticosIdentidade estável após o enriquecimento — a espinha dorsal do seu sistema de informação
Domínios de especializaçãoEncaminhamento para especialistas
EstratégiasComo orquestrar chamadas ao LLM
Processamento em LoteEnriquecimento em paralelo à escala de arquivo
MultilingueO mesmo facto em todos os idiomas em que opera
ValidaçãoGarantia de qualidade
PreservarProteção da integridade dos dados

Próximos Passos