Conceitos Fundamentais - Documentação do Entity Enricher

Conceitos Fundamentais

O Entity Enricher transforma dois tipos de conhecimento em dados estruturados e validados: o que os Large Language Models já sabem e o que permanece por ler nos seus próprios arquivos — documentos PDF, imagens, gravações de áudio, ficheiros de escritório. Cada objeto extraído recebe uma identidade semântica estável, para que os enriquecimentos se acumulem num sistema de informação coerente, em vez de uma pilha de resultados pontuais.

A ideia central

Pense nos LLM como conhecimento humano destilado — milhares de milhões de documentos, bases de dados e páginas web comprimidos em redes neuronais consultáveis. O Entity Enricher fornece a interface para extrair este conhecimento num formato estruturado e fiável que se adequa ao seu modelo de dados. E como os modelos modernos também conseguem ler PDFs, ver imagens e ouvir áudio, a mesma interface extrai estrutura do seu próprio conteúdo: os contratos, relatórios, digitalizações e gravações que a sua empresa acumulou ao longo dos anos.

Os Seus Dados e Arquivos

Registos parciais

Identificadores em bruto

PDFs e digitalizações

Imagens e áudio

Esquema + LLM

“O que quero saber?”

O Seu Sistema de Informação

Perfis estruturados

Classificações

Campos multilingues

IDs semânticos estáveis

Duas fontes de conhecimento

Cada enriquecimento baseia-se numa destas fontes ou em ambas. Elas complementam-se: o modelo fornece conhecimento do mundo e raciocínio; os seus documentos fornecem os factos que só existem dentro da sua organização.

1. O Conhecimento de Treino do Modelo

Factos públicos sobre empresas, medicamentos, locais, produtos, regulamentos — tudo o que o modelo aprendeu durante o treino. Dê-lhe um identificador (um nome, um site) e um schema, e ele preenche o resto: setor, ano de fundação, sede, mecanismos de ação. Sem documento necessário.

2. Os Seus Arquivos Não Estruturados

O conhecimento que nunca chegou a uma base de dados: contratos, faturas, relatórios de inspeção, formulários digitalizados, fotografias de produtos, chamadas gravadas. Anexe-os a um enriquecimento e o modelo extrai os campos do seu esquema diretamente do respetivo conteúdo — sem OCR, transcrição ou copiar-colar manuais.

Consulte Anexos de Documentos para conhecer os formatos suportados e os modos de entrega.

Três Pilares

1. O Schema: a Sua Pergunta à Base de Conhecimento

Um esquema não é apenas uma estrutura de dados — é uma pergunta formalizada que está a fazer ao conhecimento coletivo da humanidade, ou a um documento específico. Quando define um esquema com propriedades como companyName, industry e headquarters, está essencialmente a perguntar: “Dado um identificador de empresa, indique-me o seu nome, em que setor opera e onde está sediada.”

Conceito de esquema	Objetivo
Propriedades	Os factos específicos que pretende extrair
Tipos	O formato que espera (string, number, object, array)
Domínios de especialização	Qual o especialista que deve responder (farmacêutico, financeiro, geográfico)
Chaves de Pesquisa	Identificadores que ajudam a localizar a entity na base de conhecimento
ID semântico	Uma identidade estável, com âmbito de organização, para que o mesmo objeto do mundo real seja reconhecido nos vários enriquecimentos e nos seus outros sistemas
Preservar	Campos a passar inalterados a partir da sua entrada
Multilingue	Campos entregues em todos os idiomas em que opera — uma funcionalidade de primeira classe, não um passo de tradução acrescentado

2. O LLM: Conhecimento Consultável, Leitor Multimodal

Os Large Language Models representam um novo tipo de base de conhecimento. Ao contrário das bases de dados tradicionais, que devolvem correspondências exatas em registos armazenados, os LLM compreendem o contexto, raciocinam sobre dados incompletos e generalizam a partir de padrões. E já não se limitam a texto: os modelos com capacidade de visão leem imagens e páginas digitalizadas, os modelos com capacidade de PDF ingerem documentos inteiros e os modelos com capacidade de áudio ouvem gravações.

O Entity Enricher trata múltiplos LLMs como perspetivas de conhecimento diferentes. Cada fornecedor traz os seus próprios pontos fortes — o Claude destaca-se no raciocínio matizado, o GPT-4 tem conhecimento abrangente, o Gemini oferece profundidade multilingue e os modelos locais Ollama mantêm os seus dados privados.

Executar o mesmo enriquecimento em vários fornecedores permite-lhe comparar respostas quanto à confiança, agregar o consenso de vários especialistas e equilibrar custo versus qualidade. Saiba mais sobre isto em Multi-Model Enrichment.

3. O Enriquecimento: Extração Estruturada de Conhecimento

O enriquecimento é o processo de identificar a entidade usando chaves de pesquisa, recuperar conhecimento relevante do LLM e de quaisquer documentos anexados, estruturar a resposta de acordo com o seu esquema, validar que a saída corresponde aos tipos esperados, preservar os seus dados originais onde especificado e, por fim, resolver a identidade — atribuindo a cada objeto o seu ID semântico estável.

Entrada

{ "name": "Novartis", "website": "novartis.com" }

Extrair chaves → Consultar LLM → Validar → Resolver identidade

Saída

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Dos enriquecimentos a um sistema de informação

Cada enriquecimento é independente. Pergunte duas vezes e a mesma coisa do mundo real pode voltar descrita de forma diferente — “Acme Inc.” num dia, “Acme Incorporated” no seguinte; um efeito secundário de um medicamento como “Headache”, “Céphalée” ou “Cephalalgia” consoante o idioma ou o modelo. Para realmente construir sobre dados enriquecidos, precisa de um identificador estável para a mesma entidade.

Um ID semântico é um identificador ao nível da organização que o Entity Enricher atribui a um objeto a partir dos seus campos-chave, correspondido pelo significado, não pela ortografia exata. A mesma entidade resolve-se no mesmo ID ao longo de enriquecimentos, modelos, idiomas e no tempo. É atribuído automaticamente após a execução do modelo — nunca inventado pelo LLM — e pode existir em qualquer objeto: a entidade completa, um objeto aninhado ou cada item de uma lista.

Execução de enriquecimento #1

“Acme Inc.”

mesmo ID semântico

cpt_abc123

Execução n.º 2 — mais tarde, modelo ou idioma diferente

“Acme Incorporated”

É isto que transforma um fluxo de enriquecimentos num sistema de informação que pode expandir e consultar:

Utilizar	O que permite
Chave de junção	Uma chave estável para fazer corresponder registos enriquecidos ao seu armazém de dados, CRM ou sistema de dados-mestre
Desduplicação	Unir quase-duplicados produzidos em vários lotes, modelos ou anos de documentos numa só identidade
Reconciliação	Reintroduza um ID semântico conhecido e os novos factos associam-se à entidade que já acompanha, em vez de criar uma nova
Grafo de conhecimento	Os objetos referenciados a partir de vários registos convergem num único nó — as relações tornam-se consultáveis

O funcionamento da resolução (cache de correspondência exata, embeddings, limiares de similaridade) é abordado em IDs semânticos.

A explorar décadas de arquivos

A maioria das empresas está sentada sobre um arquivo que nunca foi estruturado: drives partilhadas de contratos e relatórios, papel digitalizado, anexos de email, reuniões gravadas. Esse arquivo é uma base de dados — apenas nunca lhe foram dadas linhas e colunas. Combinar anexos (documentos como fonte de conhecimento), enriquecimento em lote (processamento paralelo) e IDs semânticos (desduplicação em todo o corpus) transforma-o numa.

Ficheiros de arquivo

Anexar ao enriquecimento

Esquema como a pergunta de extração

Registos estruturados validados

Identidade semântica e desduplicação

A sua base de dados

Lote à escala — as entidades são enriquecidas em paralelo com progresso ao vivo por entidade, estimativas de custo antecipadas e repetição seletiva para as poucas que falham
Extração protegida — a classificação prévia e a validação do esquema impedem que um documento mal arquivado polua os seus registos com disparates apresentados com confiança
Identidade convergente — o mesmo fornecedor que aparece num contrato de 2009 e numa fatura de 2024 resolve para o mesmo ID semântico, pelo que o arquivo se condensa em dados mestre limpos
Saída através da API — os resultados são exportados como JSON validado ou fluem diretamente para os seus sistemas através da API REST e dos conectores (n8n, Make, MCP)

Consulte Enriquecimento em Batch para ver o fluxo de trabalho em detalhe.

Para Além do Texto: Fontes Multimodais

O conhecimento estruturado não vive apenas em texto. O Entity Enricher aceita os formatos que o seu arquivo realmente contém e encaminha cada um para modelos capazes de o ler.

Documentos PDF

Documentos completos com layout, tabelas e figuras — lidos nativamente por modelos com suporte de PDF

Imagens

Fotos, digitalizações, diagramas, imagens de produtos — interpretados por modelos de visão, sem passo de OCR separado

Áudio

Chamadas, reuniões e notas de voz gravadas — ouvidas diretamente por modelos com capacidade de áudio

Office e texto

Word, Excel, PowerPoint, HTML, CSV, Markdown — texto extraído no servidor e incorporado

Dois modos de entrega tornam isto possível. No modo binário, os bytes originais vão para o modelo, pelo que nada se perde na conversão — o layout de uma tabela, o detalhe de uma foto, as palavras de um orador. No modo de texto inline, o texto é extraído uma vez no carregamento e incorporado em cada prompt, o que funciona com qualquer modelo, independentemente das suas capacidades.

O encaminhamento sensível às capacidades significa que um ficheiro só chega a modelos que o conseguem realmente processar — é avisado antes de um enriquecimento começar, e não depois de este falhar. Os formatos e modos estão detalhados em Anexos de Documentos.

Domínios de especialização: consultar o especialista certo

Nem todo o conhecimento é igual. Uma pergunta sobre mecanismos de fármacos requer uma especialização diferente de uma pergunta sobre estrutura empresarial. Os domínios de especialização encaminham as propriedades do esquema para o especialista certo dentro do LLM, ativando os padrões de conhecimento relevantes para cada domínio.

pharmaceutical

Nomes de medicamentos, mecanismos, indicações, estado regulatório

business_classification

Códigos de indústria, tipos de empresa, segmentos de mercado

geographic

Localizações, regiões, informações específicas de cada país

financial

Receita, capitalização de mercado, rondas de financiamento

temporal

Datas, períodos, eventos históricos

regulatory

Aprovações, licenças, estado de conformidade

Ao utilizar a estratégia multi-expertise domain, cada domínio recebe a sua própria chamada de LLM focada apenas com as propriedades de schema relevantes, melhorando significativamente a qualidade do resultado.

Controlos de qualidade

Validação e autocorreção

Os LLMs podem cometer erros. O Entity Enricher implementa várias camadas de controlo de qualidade para detetar e corrigir erros automaticamente:

Validação de tipos — Garante que a saída corresponde aos tipos do esquema (string, número, booleano, etc.)
Validação de especialização — Verifica se todos os domínios de especialização estão definidos e contêm propriedades
Autocorreção — Quando a validação falha, os erros são reenviados ao LLM para correção automática (até 5 tentativas)
Lógica de preservação — Os valores originais dos campos preservados são restaurados após o enriquecimento, garantindo a integridade dos dados

Chaves de Pesquisa: Ancorar a Identidade Durante o Enriquecimento

As chaves de pesquisa impedem o LLM de alucinar sobre a entidade errada. Desempenham dois papéis:

Chaves de pesquisa (nome, website) — Identificadores de consulta que ajudam o LLM a encontrar a entidade correta
Chaves de fusão (product_name em arrays) — Chaves de deduplicação para fazer corresponder itens de array ao fundir resultados de vários modelos

O prompt de enriquecimento enfatiza: “Está a enriquecer esta entidade específica identificada por estas chaves de pesquisa.”

As chaves de pesquisa e os IDs semânticos são duas faces da identidade: as chaves de pesquisa ajudam o LLM a encontrar a entidade correta durante a enriquecimento; os IDs semânticos conferem-lhe uma identidade persistente na qual os seus sistemas se apoiam após o enriquecimento.

Classificação prévia

Antes de o enriquecimento começar, um passo opcional de classificação prévia pode verificar se a entidade corresponde efetivamente ao tipo do esquema. Isto evita a alucinação quando as entidades não correspondem — por exemplo, enriquecer “Titã” contra um esquema de “Planeta” quando Titã é, na verdade, uma lua.

Consciência de Custos

As chamadas ao LLM têm custos. O Entity Enricher acompanha o uso de tokens, o custo por fornecedor, o custo por enriquecimento e os gastos ao nível da organização. Isto permite a monitorização de orçamento, a comparação entre fornecedores (custo vs. qualidade) e decisões de otimização, como usar modelos mais baratos para campos simples — o que mais importa ao processar um arquivo de milhares de documentos.

Resumo

Componente	Papel conceptual
Esquema	A pergunta que está a fazer
Fornecedores de LLM	Diferentes perspetivas de conhecimento
Anexos	Os seus arquivos como fonte de conhecimento (PDF, imagem, áudio, office)
Chaves de Pesquisa	Âncoras de identidade da entidade durante o enriquecimento
IDs semânticos	Identidade estável após o enriquecimento — a espinha dorsal do seu sistema de informação
Domínios de especialização	Encaminhamento para especialistas
Estratégias	Como orquestrar chamadas ao LLM
Processamento em Lote	Enriquecimento em paralelo à escala de arquivo
Multilingue	O mesmo facto em todos os idiomas em que opera
Validação	Garantia de qualidade
Preservar	Proteção da integridade dos dados

Próximos Passos

Fluxo de enriquecimento

Percurso passo a passo do pipeline de enriquecimento

IDs semânticos

Identidade de entidade estável para deduplicação e interoperabilidade

Attachments de documentos

PDFs, imagens, áudio e ficheiros office como fontes de enriquecimento

Enriquecimento em Lote

Processamento em paralelo para listas e arquivos

Estratégias de Enriquecimento

Compare abordagens de passagem única com abordagens de múltiplos domínios de especialização

Fusão Multi-Modelo

Deteção e resolução de conflitos entre modelos