Enriqueça o mesmo tipo de entidade uma e outra vez e continua a redescobrir as mesmas coisas do mundo real — a mesma empresa, o mesmo efeito secundário de um medicamento, a mesma pessoa — descritas com palavras ligeiramente diferentes de cada vez. Um ID semântico é um identificador estável, no âmbito da organização, que o Entity Enricher atribui a um objeto a partir dos seus campos-chave, para que esses quase-duplicados se reduzam a uma identidade pela qual pode agrupar, desduplicar e fazer junções.
A identidade de um objeto é construída a partir dos seus campos-chave — e pode haver um ou vários. Dois exemplos:
nameAparece como Headache, Céphalée e Cephalalgia em diferentes execuções e idiomas. Um campo-chave, três grafias, um conceito real.
nome + paísAcme Inc. · Estados Unidos e Acme Incorporated · Estados Unidos são a mesma empresa — enquanto Acme Inc. · Alemanha é uma diferente. A segunda chave desambigua; é por isso que um objeto pode ter mais do que uma.
A correspondência simples de cadeias de texto falha em todos estes casos; um humano sabe quais são iguais. Os IDs semânticos codificam esse juízo automaticamente.
string num objeto (denominada id por predefinição), que contém um identificador opaco e estável.preserve): sempre uma string, nunca uma chave, nunca multilingue, no máximo um por objeto.fabricante) ou cada item de um array (por exemplo, cada side_effect).Após o modelo devolver o seu resultado, o Entity Enricher resolve cada ID semântico em quatro passos — começando pelo mais barato:
“Acme Inc.” e “Acme Incorporated” ficam lado a lado.0.92, ajustável por propriedade), o ID desse conceito é reutilizado. Caso contrário, é gerado um ID totalmente novo e armazenado para a próxima vez.Compromisso do limiar: um limiar mais alto é mais rigoroso (menos fusões acidentais); um mais baixo é mais permissivo (deduplicação mais agressiva). Ajuste-o por propriedade quando o valor predefinido de 0,92 fundir a mais ou a menos.
Se um ID é gerado depende de já existir um presente na entrada para esse objeto. É isto que lhe permite fazer round-trip: enriqueça uma vez para obter IDs e, depois, passe um ID conhecido em execuções posteriores para associar novos factos à mesma identidade — mais barato e sem ambiguidade.
Se o objeto que envia já contém um semantic ID, é tratado como uma consulta: o ID é mantido tal como está, o record é associado a esse conceito existente e não há embedding — sem custo, sem match-or-mint. Está a dizer à plataforma “este objeto já está identificado na nossa base de dados”.
Se o objeto não tiver um semantic ID, a plataforma gera um com os quatro passos acima. Esse ID passa a ser, a partir daí, o identificador estável do objeto na base de dados da sua organization.
Um valor presente mas não reconhecível (que não é um ID de conceito real) é ignorado, sendo gerado um ID em vez disso.
A resolução consome uma pequena quantidade de utilização de embeddings por enriquecimento (medida como qualquer chamada de modelo). A cache de correspondência exata torna as repetições gratuitas e os IDs fornecidos na entrada não têm qualquer custo.
Os IDs resolvidos aparecem no JSON de saída do enriquecimento (o campo id em cada objeto) e nos conceitos semânticos do detalhe do registo. Utilize-os para:
A fusão reconcilia discordâncias entre modelos dentro de uma única execução; os IDs semânticos reconciliam a mesma entidade ao longo de execuções e do tempo. Os dois funcionam em conjunto.