Concepts clés - Documentation Entity Enricher

Concepts clés

Entity Enricher transforme deux types de connaissances en données structurées et validées : ce que les grands modèles de langage savent déjà, et ce qui dort, jamais lu, dans vos propres archives — documents PDF, images, enregistrements audio, fichiers bureautiques. Chaque objet extrait reçoit une identité sémantique stable, de sorte que les enrichissements s'accumulent en un système d'information cohérent plutôt qu'en une pile de résultats ponctuels.

L'idée centrale

Considérez les LLM comme du savoir humain distillé — des milliards de documents, bases de données et pages web compressés en réseaux neuronaux interrogeables. Entity Enricher fournit l'interface pour extraire ce savoir dans un format structuré et fiable, adapté à votre modèle de données. Et comme les modèles modernes savent aussi lire des PDF, voir des images et écouter de l'audio, la même interface extrait de la structure de vos propres contenus : les contrats, rapports, documents numérisés et enregistrements audio que votre entreprise accumule depuis des années.

Vos données et archives

Enregistrements partiels

Identifiants bruts

PDF et scans

Images et audio

Schéma + LLM

“Qu'est-ce que je veux savoir ?”

Votre système d'information

Profils structurés

Classifications

Champs multilingues

IDs sémantiques stables

Deux sources de connaissances

Chaque enrichissement s'appuie sur l'une de ces sources, ou sur les deux. Elles se complètent : le modèle apporte la connaissance du monde et le raisonnement ; vos documents apportent les faits qui n'existent qu'au sein de votre organisation.

1. Les connaissances issues de l'entraînement du modèle

Des faits publics sur les entreprises, médicaments, lieux, produits, réglementations — tout ce que le modèle a appris pendant son entraînement. Donnez-lui un identifiant (un nom, un site web) et un schéma, et il complète le reste : secteur, année de création, siège social, mécanismes d'action. Aucun document requis.

2. Vos archives non structurées

Les connaissances qui n'ont jamais été saisies dans une base de données : contrats, factures, rapports d'inspection, formulaires numérisés, photos de produits, appels enregistrés. Joignez-les à un enrichissement et le modèle extrait les champs de votre schéma directement de leur contenu — sans OCR manuel, transcription ni copier-coller.

Consultez Pièces jointes de documents pour les formats pris en charge et les modes de livraison.

Trois piliers

1. Le schéma : votre question à la base de connaissances

Un schéma n'est pas qu'une simple structure de données — c'est une question formalisée que vous posez à la connaissance collective de l'humanité, ou à un document spécifique. Lorsque vous définissez un schéma avec des propriétés comme companyName, industry et headquarters, vous demandez en substance : « À partir d'un identifiant d'entreprise, donnez-moi son nom, son secteur d'activité et l'emplacement de son siège social. »

Concept de schéma	Objectif
Propriétés	Les faits précis que vous souhaitez extraire
Types	Le format attendu (string, number, object, array)
Domaines d'expertise	Quel spécialiste doit répondre (pharmaceutique, financier, géographique)
Clés de recherche	Identifiants aidant à localiser l'entité dans la base de connaissances
ID sémantique	Une identité stable, propre à l'organisation, afin que le même objet du monde réel soit reconnu d'un enrichissement à l'autre et dans vos autres systèmes
Conserver	Champs à transmettre tels quels depuis votre entrée
Multilingue	Des champs livrés dans toutes les langues où vous opérez — une fonctionnalité à part entière, pas une étape de traduction ajoutée après coup

2. Le LLM : connaissances interrogeables, lecteur multimodal

Les grands modèles de langage représentent un nouveau type de base de connaissances. Contrairement aux bases de données traditionnelles qui renvoient des correspondances exactes sur des enregistrements stockés, les LLM comprennent le contexte, raisonnent sur des données incomplètes et généralisent à partir de motifs. Et ils ne se limitent plus au texte : les modèles dotés de vision lisent les images et les pages numérisées, les modèles compatibles PDF ingèrent des documents entiers, et les modèles compatibles audio écoutent des enregistrements.

Entity Enricher traite les différents LLM comme des perspectives de connaissance distinctes. Chaque fournisseur apporte ses propres forces — Claude excelle dans le raisonnement nuancé, GPT-4 possède des connaissances étendues, Gemini offre une profondeur multilingue, et les modèles Ollama locaux gardent vos données privées.

Exécuter le même enrichissement sur plusieurs fournisseurs vous permet de comparer les réponses pour gagner en confiance, d'agréger le consensus de plusieurs experts et d'équilibrer coût et qualité. En savoir plus dans Enrichissement multi-modèle.

3. L'enrichissement : extraction de connaissances structurées

L'enrichissement est le processus consistant à identifier l'entité à l'aide de clés de recherche, récupérer les connaissances pertinentes du LLM et des documents joints, structurer la réponse selon votre schéma, valider que la sortie correspond aux types attendus, préserver vos données d'origine là où c'est spécifié, et enfin résoudre l'identité — en attribuant à chaque objet son ID sémantique stable.

Entrée

{ "name": "Novartis", "website": "novartis.com" }

Extraction des clés → Requête LLM → Validation → Résolution de l'identité

Sortie

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Des enrichissements à un système d'information

Chaque enrichissement est indépendant. Interrogez deux fois et la même réalité peut revenir décrite différemment — « Acme Inc. » un jour, « Acme Incorporated » le lendemain ; un effet secondaire de médicament sous la forme « Headache », « Céphalée » ou « Cephalalgia » selon la langue ou le modèle. Pour réellement construire sur des données enrichies, il vous faut un identifiant stable pour la même entité.

Un identifiant sémantique est un identifiant à l'échelle de l'organisation qu'Entity Enricher attribue à un objet à partir de ses champs clés, mis en correspondance par le sens, et non l'orthographe exacte. La même entité se résout vers le même identifiant à travers les enrichissements, les modèles, les langues et le temps. Il est attribué automatiquement après l'exécution du modèle — jamais inventé par le LLM — et peut figurer sur n'importe quel objet : l'entité entière, un objet imbriqué ou chaque élément d'une liste.

Exécution d'enrichissement n°1

“Acme Inc.”

même ID sémantique

cpt_abc123

Exécution n°2 — plus tard, modèle ou langue différents

“Acme Incorporated”

C'est ce qui transforme un flux d'enrichissements en un système d'information que vous pouvez développer et interroger :

Utiliser	Ce que cela permet
Clé de jointure	Une clé stable pour rapprocher les enregistrements enrichis de votre entrepôt de données, de votre CRM ou de votre système de données de référence
Déduplication	Regrouper en une seule identité les quasi-doublons produits par différents traitements par lot, modèles ou années de documents
Réconciliation	Renvoyez un ID sémantique connu et les nouveaux faits se rattachent à l'entité que vous suivez déjà, au lieu d'en créer une nouvelle
Graphe de connaissances	Les objets référencés par plusieurs enregistrements convergent vers un même nœud — les relations deviennent interrogeables

Le fonctionnement de la résolution (cache de correspondance exacte, embeddings, seuils de similarité) est décrit dans IDs sémantiques.

Exploiter des décennies d'archives

La plupart des entreprises sont assises sur des archives qui n'ont jamais été structurées : disques partagés remplis de contrats et de rapports, papier numérisé, pièces jointes d'e-mails, réunions enregistrées. Ces archives sont une base de données — on ne leur a simplement jamais donné de lignes ni de colonnes. Combiner les pièces jointes (documents comme source de connaissances), l'enrichissement par traitement par lot (traitement en parallèle) et les ID sémantiques (déduplication sur l'ensemble du corpus) les transforme en une véritable base de données.

Fichiers d'archive

Joindre à l'enrichissement

Le schéma comme question d'extraction

Enregistrements structurés validés

Identité sémantique et déduplication

Votre base de données

Traitement par lot à grande échelle — les entités sont enrichies en parallèle avec une progression en direct par entité, des estimations de coût en amont et une relance sélective des rares échecs
Extraction encadrée — la classification préalable et la validation du schéma empêchent un document mal classé de polluer vos enregistrements d'inepties énoncées avec aplomb
Identité convergente — le même fournisseur apparaissant dans un contrat de 2009 et une facture de 2024 est résolu vers le même ID sémantique, si bien que l'archive se consolide en données de référence propres
Sortie via l'API — les résultats s'exportent en JSON validé ou alimentent directement vos systèmes via l'API REST et les connecteurs (n8n, Make, MCP)

Consultez Enrichissement par traitement par lot pour le détail du workflow.

Au-delà du texte : sources multimodales

La connaissance structurée ne réside pas uniquement dans le texte. Entity Enricher accepte les formats que contient réellement votre archive et achemine chacun d'eux vers des modèles capables de le lire.

Documents PDF

Documents entiers avec mise en page, tableaux et figures — lus nativement par des modèles capables de traiter les PDF

Images

Photos, scans, diagrammes, visuels produit — interprétés par des modèles de vision, sans étape OCR distincte

Audio

Appels enregistrés, réunions et notes vocales — entendus directement par des modèles capables de traiter l'audio

Bureautique et texte

Word, Excel, PowerPoint, HTML, CSV, Markdown — texte extrait côté serveur et intégré

Deux modes de livraison rendent cela possible. En mode binaire, les octets d'origine sont envoyés au modèle, donc rien n'est perdu lors de la conversion — la mise en page d'un tableau, le détail d'une photo, les mots d'un intervenant. En mode texte intégré, le texte est extrait une seule fois lors du téléversement et inséré dans chaque prompt, ce qui fonctionne avec n'importe quel modèle, quelles que soient ses capacités.

Le routage sensible aux capacités garantit qu'un fichier n'atteint que les modèles réellement capables de le traiter — vous êtes averti avant le démarrage d'un enrichissement, pas après son échec. Les formats et modes sont détaillés dans Pièces jointes de documents.

Domaines d'expertise : consulter le bon spécialiste

Toutes les connaissances ne se valent pas. Une question sur les mécanismes d'action des médicaments exige une expertise différente d'une question sur la structure d'une entreprise. Les domaines d'expertise dirigent les propriétés du schéma vers le bon spécialiste au sein du LLM, en activant les connaissances pertinentes pour chaque domaine.

pharmaceutical

Noms de médicaments, mécanismes, indications, statut réglementaire

business_classification

Codes sectoriels, types d'entreprise, segments de marché

geographic

Lieux, régions, informations spécifiques aux pays

financial

Chiffre d'affaires, capitalisation boursière, levées de fonds

temporal

Dates, périodes, événements historiques

regulatory

Approbations, licences, statut de conformité

Avec la stratégie multi-expertise, chaque domaine bénéficie de son propre appel LLM ciblé, avec uniquement les propriétés de schéma pertinentes, ce qui améliore nettement la qualité des résultats.

Contrôles qualité

Validation et autocorrection

Les LLM peuvent commettre des erreurs. Entity Enricher met en œuvre plusieurs niveaux de contrôle qualité pour détecter et corriger automatiquement les erreurs :

Validation des types — Garantit que la sortie correspond aux types du schéma (chaîne, nombre, booléen, etc.)
Validation des expertises — Vérifie que tous les domaines d'expertise sont définis et contiennent des propriétés
Auto-correction — En cas d'échec de validation, les erreurs sont renvoyées au LLM pour correction automatique (jusqu'à 5 tentatives)
Logique de préservation — Les valeurs d'origine des champs préservés sont restaurées après l'enrichissement, garantissant l'intégrité des données

Clés de recherche : ancrer l'identité pendant l'enrichissement

Les clés de recherche empêchent le LLM d'halluciner sur la mauvaise entité. Elles jouent deux rôles :

Clés de recherche (name, website) — Identifiants de recherche qui aident le LLM à trouver la bonne entité
Clés de fusion (product_name dans les tableaux) — Clés de déduplication pour faire correspondre les éléments de tableaux lors de la fusion des résultats de plusieurs modèles

Le prompt d'enrichissement insiste : « Vous enrichissez cette entité précise, identifiée par ces clés de recherche. »

Les clés de recherche et les identifiants sémantiques sont les deux facettes de l'identité : les clés de recherche aident le LLM à trouver la bonne entité pendant l'enrichissement ; les identifiants sémantiques lui confèrent une identité persistante sur laquelle vos systèmes s'appuient après l'enrichissement.

Classification préalable

Avant le début de l'enrichissement, une étape optionnelle de classification préalable peut vérifier que l'entité correspond réellement au type du schéma. Cela évite les hallucinations lorsque les entités ne correspondent pas — par exemple, enrichir « Titan » avec un schéma « Planète » alors que Titan est en réalité une lune.

Sensibilisation aux coûts

Les appels LLM ont un coût. Entity Enricher suit l'utilisation des tokens, le coût par fournisseur, le coût par enrichissement et les dépenses au niveau de l'organisation. Cela permet le suivi budgétaire, la comparaison des fournisseurs (coût vs qualité) et des décisions d'optimisation comme l'utilisation de modèles moins chers pour les champs simples — ce qui compte le plus lors du traitement d'une archive de milliers de documents.

Résumé

Composant	Rôle conceptuel
Schéma	La question que vous posez
Fournisseurs LLM	Différentes perspectives de connaissances
Pièces jointes	Vos archives comme source de connaissances (PDF, image, audio, bureautique)
Clés de recherche	Ancres d'identité d'entité pendant l'enrichissement
ID sémantiques	Identité stable après enrichissement — l'épine dorsale de votre système d'information
Domaines d'expertise	Routage vers les spécialistes
Stratégies	Comment orchestrer les appels LLM
Traitement par lot	Enrichissement parallèle à l'échelle des archives
Multilingue	Le même fait dans toutes les langues dans lesquelles vous opérez
Validation	Assurance qualité
Conserver	Protection de l'intégrité des données

Prochaines étapes

Flux d'enrichissement

Présentation pas à pas du pipeline d'enrichissement

ID sémantiques

Identité d'entité stable pour la déduplication et l'interopérabilité

Pièces jointes de documents

PDF, images, audio et fichiers bureautiques comme sources d'enrichissement

Enrichissement par lot

Traitement parallèle pour les listes et les archives

Stratégies d'enrichissement

Comparer les approches passage unique et multi-expertise

Fusion multi-modèle

Détection et résolution des conflits entre modèles