Concepts clés - Documentation Entity Enricher

Concepts clés

Entity Enricher transforme deux types de connaissances en données structurées et validées : ce que les grands modèles de langage savent déjà, et ce qui dort, jamais lu, dans vos propres archives — documents PDF, images, enregistrements audio, fichiers bureautiques. Chaque objet extrait reçoit une identité sémantique stable, de sorte que les enrichissements s'accumulent en un système d'information cohérent plutôt qu'en une pile de résultats ponctuels.

L'idée centrale

Considérez les LLM comme du savoir humain distillé — des milliards de documents, bases de données et pages web compressés en réseaux neuronaux interrogeables. Entity Enricher fournit l'interface pour extraire ce savoir dans un format structuré et fiable, adapté à votre modèle de données. Et comme les modèles modernes savent aussi lire des PDF, voir des images et écouter de l'audio, la même interface extrait de la structure de vos propres contenus : les contrats, rapports, documents numérisés et enregistrements audio que votre entreprise accumule depuis des années.

Vos données et archives
Enregistrements partiels
Identifiants bruts
PDF et scans
Images et audio
Schéma + LLM
“Qu'est-ce que je veux savoir ?”
Votre système d'information
Profils structurés
Classifications
Champs multilingues
IDs sémantiques stables

Deux sources de connaissances

Chaque enrichissement s'appuie sur l'une de ces sources, ou sur les deux. Elles se complètent : le modèle apporte la connaissance du monde et le raisonnement ; vos documents apportent les faits qui n'existent qu'au sein de votre organisation.

1. Les connaissances issues de l'entraînement du modèle

Des faits publics sur les entreprises, médicaments, lieux, produits, réglementations — tout ce que le modèle a appris pendant son entraînement. Donnez-lui un identifiant (un nom, un site web) et un schéma, et il complète le reste : secteur, année de création, siège social, mécanismes d'action. Aucun document requis.

2. Vos archives non structurées

Les connaissances qui n'ont jamais été saisies dans une base de données : contrats, factures, rapports d'inspection, formulaires numérisés, photos de produits, appels enregistrés. Joignez-les à un enrichissement et le modèle extrait les champs de votre schéma directement de leur contenu — sans OCR manuel, transcription ni copier-coller.

Consultez Pièces jointes de documents pour les formats pris en charge et les modes de livraison.

Trois piliers

1. Le schéma : votre question à la base de connaissances

Un schéma n'est pas qu'une simple structure de données — c'est une question formalisée que vous posez à la connaissance collective de l'humanité, ou à un document spécifique. Lorsque vous définissez un schéma avec des propriétés comme companyName, industry et headquarters, vous demandez en substance : « À partir d'un identifiant d'entreprise, donnez-moi son nom, son secteur d'activité et l'emplacement de son siège social. »

Concept de schémaObjectif
PropriétésLes faits précis que vous souhaitez extraire
TypesLe format attendu (string, number, object, array)
Domaines d'expertiseQuel spécialiste doit répondre (pharmaceutique, financier, géographique)
Clés de rechercheIdentifiants aidant à localiser l'entité dans la base de connaissances
ID sémantiqueUne identité stable, propre à l'organisation, afin que le même objet du monde réel soit reconnu d'un enrichissement à l'autre et dans vos autres systèmes
ConserverChamps à transmettre tels quels depuis votre entrée
MultilingueDes champs livrés dans toutes les langues où vous opérez — une fonctionnalité à part entière, pas une étape de traduction ajoutée après coup

2. Le LLM : connaissances interrogeables, lecteur multimodal

Les grands modèles de langage représentent un nouveau type de base de connaissances. Contrairement aux bases de données traditionnelles qui renvoient des correspondances exactes sur des enregistrements stockés, les LLM comprennent le contexte, raisonnent sur des données incomplètes et généralisent à partir de motifs. Et ils ne se limitent plus au texte : les modèles dotés de vision lisent les images et les pages numérisées, les modèles compatibles PDF ingèrent des documents entiers, et les modèles compatibles audio écoutent des enregistrements.

Entity Enricher traite les différents LLM comme des perspectives de connaissance distinctes. Chaque fournisseur apporte ses propres forces — Claude excelle dans le raisonnement nuancé, GPT-4 possède des connaissances étendues, Gemini offre une profondeur multilingue, et les modèles Ollama locaux gardent vos données privées.

Exécuter le même enrichissement sur plusieurs fournisseurs vous permet de comparer les réponses pour gagner en confiance, d'agréger le consensus de plusieurs experts et d'équilibrer coût et qualité. En savoir plus dans Enrichissement multi-modèle.

3. L'enrichissement : extraction de connaissances structurées

L'enrichissement est le processus consistant à identifier l'entité à l'aide de clés de recherche, récupérer les connaissances pertinentes du LLM et des documents joints, structurer la réponse selon votre schéma, valider que la sortie correspond aux types attendus, préserver vos données d'origine là où c'est spécifié, et enfin résoudre l'identité — en attribuant à chaque objet son ID sémantique stable.

Entrée
{ "name": "Novartis", "website": "novartis.com" }
Extraction des clés → Requête LLM → Validation → Résolution de l'identité
Sortie
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Des enrichissements à un système d'information

Chaque enrichissement est indépendant. Interrogez deux fois et la même réalité peut revenir décrite différemment — « Acme Inc. » un jour, « Acme Incorporated » le lendemain ; un effet secondaire de médicament sous la forme « Headache », « Céphalée » ou « Cephalalgia » selon la langue ou le modèle. Pour réellement construire sur des données enrichies, il vous faut un identifiant stable pour la même entité.

Un identifiant sémantique est un identifiant à l'échelle de l'organisation qu'Entity Enricher attribue à un objet à partir de ses champs clés, mis en correspondance par le sens, et non l'orthographe exacte. La même entité se résout vers le même identifiant à travers les enrichissements, les modèles, les langues et le temps. Il est attribué automatiquement après l'exécution du modèle — jamais inventé par le LLM — et peut figurer sur n'importe quel objet : l'entité entière, un objet imbriqué ou chaque élément d'une liste.

Exécution d'enrichissement n°1
“Acme Inc.”
même ID sémantique
cpt_abc123
Exécution n°2 — plus tard, modèle ou langue différents
“Acme Incorporated”

C'est ce qui transforme un flux d'enrichissements en un système d'information que vous pouvez développer et interroger :

UtiliserCe que cela permet
Clé de jointureUne clé stable pour rapprocher les enregistrements enrichis de votre entrepôt de données, de votre CRM ou de votre système de données de référence
DéduplicationRegrouper en une seule identité les quasi-doublons produits par différents traitements par lot, modèles ou années de documents
RéconciliationRenvoyez un ID sémantique connu et les nouveaux faits se rattachent à l'entité que vous suivez déjà, au lieu d'en créer une nouvelle
Graphe de connaissancesLes objets référencés par plusieurs enregistrements convergent vers un même nœud — les relations deviennent interrogeables

Le fonctionnement de la résolution (cache de correspondance exacte, embeddings, seuils de similarité) est décrit dans IDs sémantiques.

Exploiter des décennies d'archives

La plupart des entreprises sont assises sur des archives qui n'ont jamais été structurées : disques partagés remplis de contrats et de rapports, papier numérisé, pièces jointes d'e-mails, réunions enregistrées. Ces archives sont une base de données — on ne leur a simplement jamais donné de lignes ni de colonnes. Combiner les pièces jointes (documents comme source de connaissances), l'enrichissement par traitement par lot (traitement en parallèle) et les ID sémantiques (déduplication sur l'ensemble du corpus) les transforme en une véritable base de données.

Fichiers d'archive
Joindre à l'enrichissement
Le schéma comme question d'extraction
Enregistrements structurés validés
Identité sémantique et déduplication
Votre base de données

Consultez Enrichissement par traitement par lot pour le détail du workflow.

Au-delà du texte : sources multimodales

La connaissance structurée ne réside pas uniquement dans le texte. Entity Enricher accepte les formats que contient réellement votre archive et achemine chacun d'eux vers des modèles capables de le lire.

Documents PDF
Documents entiers avec mise en page, tableaux et figures — lus nativement par des modèles capables de traiter les PDF
Images
Photos, scans, diagrammes, visuels produit — interprétés par des modèles de vision, sans étape OCR distincte
Audio
Appels enregistrés, réunions et notes vocales — entendus directement par des modèles capables de traiter l'audio
Bureautique et texte
Word, Excel, PowerPoint, HTML, CSV, Markdown — texte extrait côté serveur et intégré

Deux modes de livraison rendent cela possible. En mode binaire, les octets d'origine sont envoyés au modèle, donc rien n'est perdu lors de la conversion — la mise en page d'un tableau, le détail d'une photo, les mots d'un intervenant. En mode texte intégré, le texte est extrait une seule fois lors du téléversement et inséré dans chaque prompt, ce qui fonctionne avec n'importe quel modèle, quelles que soient ses capacités.

Le routage sensible aux capacités garantit qu'un fichier n'atteint que les modèles réellement capables de le traiter — vous êtes averti avant le démarrage d'un enrichissement, pas après son échec. Les formats et modes sont détaillés dans Pièces jointes de documents.

Domaines d'expertise : consulter le bon spécialiste

Toutes les connaissances ne se valent pas. Une question sur les mécanismes d'action des médicaments exige une expertise différente d'une question sur la structure d'une entreprise. Les domaines d'expertise dirigent les propriétés du schéma vers le bon spécialiste au sein du LLM, en activant les connaissances pertinentes pour chaque domaine.

pharmaceutical
Noms de médicaments, mécanismes, indications, statut réglementaire
business_classification
Codes sectoriels, types d'entreprise, segments de marché
geographic
Lieux, régions, informations spécifiques aux pays
financial
Chiffre d'affaires, capitalisation boursière, levées de fonds
temporal
Dates, périodes, événements historiques
regulatory
Approbations, licences, statut de conformité

Avec la stratégie multi-expertise, chaque domaine bénéficie de son propre appel LLM ciblé, avec uniquement les propriétés de schéma pertinentes, ce qui améliore nettement la qualité des résultats.

Contrôles qualité

Validation et autocorrection

Les LLM peuvent commettre des erreurs. Entity Enricher met en œuvre plusieurs niveaux de contrôle qualité pour détecter et corriger automatiquement les erreurs :

  1. Validation des types — Garantit que la sortie correspond aux types du schéma (chaîne, nombre, booléen, etc.)
  2. Validation des expertises — Vérifie que tous les domaines d'expertise sont définis et contiennent des propriétés
  3. Auto-correction — En cas d'échec de validation, les erreurs sont renvoyées au LLM pour correction automatique (jusqu'à 5 tentatives)
  4. Logique de préservation — Les valeurs d'origine des champs préservés sont restaurées après l'enrichissement, garantissant l'intégrité des données

Clés de recherche : ancrer l'identité pendant l'enrichissement

Les clés de recherche empêchent le LLM d'halluciner sur la mauvaise entité. Elles jouent deux rôles :

  • Clés de recherche (name, website) — Identifiants de recherche qui aident le LLM à trouver la bonne entité
  • Clés de fusion (product_name dans les tableaux) — Clés de déduplication pour faire correspondre les éléments de tableaux lors de la fusion des résultats de plusieurs modèles

Le prompt d'enrichissement insiste : « Vous enrichissez cette entité précise, identifiée par ces clés de recherche. »

Les clés de recherche et les identifiants sémantiques sont les deux facettes de l'identité : les clés de recherche aident le LLM à trouver la bonne entité pendant l'enrichissement ; les identifiants sémantiques lui confèrent une identité persistante sur laquelle vos systèmes s'appuient après l'enrichissement.

Classification préalable

Avant le début de l'enrichissement, une étape optionnelle de classification préalable peut vérifier que l'entité correspond réellement au type du schéma. Cela évite les hallucinations lorsque les entités ne correspondent pas — par exemple, enrichir « Titan » avec un schéma « Planète » alors que Titan est en réalité une lune.

Sensibilisation aux coûts

Les appels LLM ont un coût. Entity Enricher suit l'utilisation des tokens, le coût par fournisseur, le coût par enrichissement et les dépenses au niveau de l'organisation. Cela permet le suivi budgétaire, la comparaison des fournisseurs (coût vs qualité) et des décisions d'optimisation comme l'utilisation de modèles moins chers pour les champs simples — ce qui compte le plus lors du traitement d'une archive de milliers de documents.

Résumé

ComposantRôle conceptuel
SchémaLa question que vous posez
Fournisseurs LLMDifférentes perspectives de connaissances
Pièces jointesVos archives comme source de connaissances (PDF, image, audio, bureautique)
Clés de rechercheAncres d'identité d'entité pendant l'enrichissement
ID sémantiquesIdentité stable après enrichissement — l'épine dorsale de votre système d'information
Domaines d'expertiseRoutage vers les spécialistes
StratégiesComment orchestrer les appels LLM
Traitement par lotEnrichissement parallèle à l'échelle des archives
MultilingueLe même fait dans toutes les langues dans lesquelles vous opérez
ValidationAssurance qualité
ConserverProtection de l'intégrité des données

Prochaines étapes