O Entity Enricher transforma dois tipos de conhecimento em dados estruturados e validados: o que os Large Language Models já sabem e o que permanece por ler nos seus próprios arquivos — documentos PDF, imagens, gravações de áudio, ficheiros de escritório. Cada objeto extraído recebe uma identidade semântica estável, para que os enriquecimentos se acumulem num sistema de informação coerente, em vez de uma pilha de resultados pontuais.
Pense nos LLM como conhecimento humano destilado — milhares de milhões de documentos, bases de dados e páginas web comprimidos em redes neuronais consultáveis. O Entity Enricher fornece a interface para extrair este conhecimento num formato estruturado e fiável que se adequa ao seu modelo de dados. E como os modelos modernos também conseguem ler PDFs, ver imagens e ouvir áudio, a mesma interface extrai estrutura do seu próprio conteúdo: os contratos, relatórios, digitalizações e gravações que a sua empresa acumulou ao longo dos anos.
Cada enriquecimento baseia-se numa destas fontes ou em ambas. Elas complementam-se: o modelo fornece conhecimento do mundo e raciocínio; os seus documentos fornecem os factos que só existem dentro da sua organização.
Factos públicos sobre empresas, medicamentos, locais, produtos, regulamentos — tudo o que o modelo aprendeu durante o treino. Dê-lhe um identificador (um nome, um site) e um schema, e ele preenche o resto: setor, ano de fundação, sede, mecanismos de ação. Sem documento necessário.
O conhecimento que nunca chegou a uma base de dados: contratos, faturas, relatórios de inspeção, formulários digitalizados, fotografias de produtos, chamadas gravadas. Anexe-os a um enriquecimento e o modelo extrai os campos do seu esquema diretamente do respetivo conteúdo — sem OCR, transcrição ou copiar-colar manuais.
Consulte Anexos de Documentos para conhecer os formatos suportados e os modos de entrega.
Um esquema não é apenas uma estrutura de dados — é uma pergunta formalizada que está a fazer ao conhecimento coletivo da humanidade, ou a um documento específico. Quando define um esquema com propriedades como companyName, industry e headquarters, está essencialmente a perguntar: “Dado um identificador de empresa, indique-me o seu nome, em que setor opera e onde está sediada.”
| Conceito de esquema | Objetivo |
|---|---|
| Propriedades | Os factos específicos que pretende extrair |
| Tipos | O formato que espera (string, number, object, array) |
| Domínios de especialização | Qual o especialista que deve responder (farmacêutico, financeiro, geográfico) |
| Chaves de Pesquisa | Identificadores que ajudam a localizar a entity na base de conhecimento |
| ID semântico | Uma identidade estável, com âmbito de organização, para que o mesmo objeto do mundo real seja reconhecido nos vários enriquecimentos e nos seus outros sistemas |
| Preservar | Campos a passar inalterados a partir da sua entrada |
| Multilingue | Campos entregues em todos os idiomas em que opera — uma funcionalidade de primeira classe, não um passo de tradução acrescentado |
Os Large Language Models representam um novo tipo de base de conhecimento. Ao contrário das bases de dados tradicionais, que devolvem correspondências exatas em registos armazenados, os LLM compreendem o contexto, raciocinam sobre dados incompletos e generalizam a partir de padrões. E já não se limitam a texto: os modelos com capacidade de visão leem imagens e páginas digitalizadas, os modelos com capacidade de PDF ingerem documentos inteiros e os modelos com capacidade de áudio ouvem gravações.
O Entity Enricher trata múltiplos LLMs como perspetivas de conhecimento diferentes. Cada fornecedor traz os seus próprios pontos fortes — o Claude destaca-se no raciocínio matizado, o GPT-4 tem conhecimento abrangente, o Gemini oferece profundidade multilingue e os modelos locais Ollama mantêm os seus dados privados.
Executar o mesmo enriquecimento em vários fornecedores permite-lhe comparar respostas quanto à confiança, agregar o consenso de vários especialistas e equilibrar custo versus qualidade. Saiba mais sobre isto em Multi-Model Enrichment.
O enriquecimento é o processo de identificar a entidade usando chaves de pesquisa, recuperar conhecimento relevante do LLM e de quaisquer documentos anexados, estruturar a resposta de acordo com o seu esquema, validar que a saída corresponde aos tipos esperados, preservar os seus dados originais onde especificado e, por fim, resolver a identidade — atribuindo a cada objeto o seu ID semântico estável.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }Cada enriquecimento é independente. Pergunte duas vezes e a mesma coisa do mundo real pode voltar descrita de forma diferente — “Acme Inc.” num dia, “Acme Incorporated” no seguinte; um efeito secundário de um medicamento como “Headache”, “Céphalée” ou “Cephalalgia” consoante o idioma ou o modelo. Para realmente construir sobre dados enriquecidos, precisa de um identificador estável para a mesma entidade.
Um ID semântico é um identificador ao nível da organização que o Entity Enricher atribui a um objeto a partir dos seus campos-chave, correspondido pelo significado, não pela ortografia exata. A mesma entidade resolve-se no mesmo ID ao longo de enriquecimentos, modelos, idiomas e no tempo. É atribuído automaticamente após a execução do modelo — nunca inventado pelo LLM — e pode existir em qualquer objeto: a entidade completa, um objeto aninhado ou cada item de uma lista.
cpt_abc123É isto que transforma um fluxo de enriquecimentos num sistema de informação que pode expandir e consultar:
| Utilizar | O que permite |
|---|---|
| Chave de junção | Uma chave estável para fazer corresponder registos enriquecidos ao seu armazém de dados, CRM ou sistema de dados-mestre |
| Desduplicação | Unir quase-duplicados produzidos em vários lotes, modelos ou anos de documentos numa só identidade |
| Reconciliação | Reintroduza um ID semântico conhecido e os novos factos associam-se à entidade que já acompanha, em vez de criar uma nova |
| Grafo de conhecimento | Os objetos referenciados a partir de vários registos convergem num único nó — as relações tornam-se consultáveis |
O funcionamento da resolução (cache de correspondência exata, embeddings, limiares de similaridade) é abordado em IDs semânticos.
A maioria das empresas está sentada sobre um arquivo que nunca foi estruturado: drives partilhadas de contratos e relatórios, papel digitalizado, anexos de email, reuniões gravadas. Esse arquivo é uma base de dados — apenas nunca lhe foram dadas linhas e colunas. Combinar anexos (documentos como fonte de conhecimento), enriquecimento em lote (processamento paralelo) e IDs semânticos (desduplicação em todo o corpus) transforma-o numa.
Consulte Enriquecimento em Batch para ver o fluxo de trabalho em detalhe.
O conhecimento estruturado não vive apenas em texto. O Entity Enricher aceita os formatos que o seu arquivo realmente contém e encaminha cada um para modelos capazes de o ler.
Dois modos de entrega tornam isto possível. No modo binário, os bytes originais vão para o modelo, pelo que nada se perde na conversão — o layout de uma tabela, o detalhe de uma foto, as palavras de um orador. No modo de texto inline, o texto é extraído uma vez no carregamento e incorporado em cada prompt, o que funciona com qualquer modelo, independentemente das suas capacidades.
O encaminhamento sensível às capacidades significa que um ficheiro só chega a modelos que o conseguem realmente processar — é avisado antes de um enriquecimento começar, e não depois de este falhar. Os formatos e modos estão detalhados em Anexos de Documentos.
Nem todo o conhecimento é igual. Uma pergunta sobre mecanismos de fármacos requer uma especialização diferente de uma pergunta sobre estrutura empresarial. Os domínios de especialização encaminham as propriedades do esquema para o especialista certo dentro do LLM, ativando os padrões de conhecimento relevantes para cada domínio.
Ao utilizar a estratégia multi-expertise domain, cada domínio recebe a sua própria chamada de LLM focada apenas com as propriedades de schema relevantes, melhorando significativamente a qualidade do resultado.
Os LLMs podem cometer erros. O Entity Enricher implementa várias camadas de controlo de qualidade para detetar e corrigir erros automaticamente:
As chaves de pesquisa impedem o LLM de alucinar sobre a entidade errada. Desempenham dois papéis:
O prompt de enriquecimento enfatiza: “Está a enriquecer esta entidade específica identificada por estas chaves de pesquisa.”
As chaves de pesquisa e os IDs semânticos são duas faces da identidade: as chaves de pesquisa ajudam o LLM a encontrar a entidade correta durante a enriquecimento; os IDs semânticos conferem-lhe uma identidade persistente na qual os seus sistemas se apoiam após o enriquecimento.
Antes de o enriquecimento começar, um passo opcional de classificação prévia pode verificar se a entidade corresponde efetivamente ao tipo do esquema. Isto evita a alucinação quando as entidades não correspondem — por exemplo, enriquecer “Titã” contra um esquema de “Planeta” quando Titã é, na verdade, uma lua.
As chamadas ao LLM têm custos. O Entity Enricher acompanha o uso de tokens, o custo por fornecedor, o custo por enriquecimento e os gastos ao nível da organização. Isto permite a monitorização de orçamento, a comparação entre fornecedores (custo vs. qualidade) e decisões de otimização, como usar modelos mais baratos para campos simples — o que mais importa ao processar um arquivo de milhares de documentos.
| Componente | Papel conceptual |
|---|---|
| Esquema | A pergunta que está a fazer |
| Fornecedores de LLM | Diferentes perspetivas de conhecimento |
| Anexos | Os seus arquivos como fonte de conhecimento (PDF, imagem, áudio, office) |
| Chaves de Pesquisa | Âncoras de identidade da entidade durante o enriquecimento |
| IDs semânticos | Identidade estável após o enriquecimento — a espinha dorsal do seu sistema de informação |
| Domínios de especialização | Encaminhamento para especialistas |
| Estratégias | Como orquestrar chamadas ao LLM |
| Processamento em Lote | Enriquecimento em paralelo à escala de arquivo |
| Multilingue | O mesmo facto em todos os idiomas em que opera |
| Validação | Garantia de qualidade |
| Preservar | Proteção da integridade dos dados |