Génération de schéma par IA - Documentation Entity Enricher

Génération de schéma par IA

Générez des schémas JSON structurés à partir de données d'exemple grâce à l'IA, avec autocorrection automatique et post-traitement intelligent.

Fonctionnement

La génération de schéma transforme des données d'entité brutes en un schéma JSON typé et annoté qui définit exactement quelles informations extraire lors de l'enrichissement. Au lieu d'écrire vos schémas manuellement, vous collez un exemple de JSON et laissez l'IA analyser la structure, inférer les types, attribuer les domaines d'expertise et suggérer des améliorations.

Le pipeline de génération

  1. Prétraitement de l'entrée — Votre JSON d'exemple est analysé. Les objets localisés (comme {"en": "...", "fr": "..."}) sont réduits à une valeur unique, et le nombre de propriétés détermine combien de domaines d'expertise sont autorisés.
  2. Construction du prompt — Un prompt système adaptatif est construit selon la complexité de vos données : présence d'objets imbriqués, nombre de propriétés et détection éventuelle de champs multilingues.
  3. Génération LLM avec autocorrection — L'IA génère le schéma. Si l'une des 8 règles de validation échoue, les erreurs sont renvoyées à l'IA pour correction — jusqu'à 6 tentatives au total.
  4. Post-traitement — Des règles déterministes affinent le schéma : marquage des champs nullables, suppression des clés de recherche vides et collecte des métadonnées d'expertise.
  5. Sauvegarde automatique — Le schéma généré est automatiquement sauvegardé et dédupliqué par hachage du contenu, afin que des schémas identiques ne soient pas dupliqués.

Boucle d'auto-correction

La boucle d'auto-correction est ce qui rend la génération de schémas fiable. Une fois le schéma produit par l'IA, il passe par un validateur qui vérifie 8 règles couvrant la justesse des types, l'attribution des domaines d'expertise, l'intégrité des références et la complétude des données. Si une règle échoue, le message d'erreur correspondant est renvoyé à l'IA afin qu'elle corrige le problème lors de sa tentative suivante.

Exemple d'autocorrection

Tentative 1L'IA génère le schéma. Le validateur détecte : revenue : incompatibilité de type — l'entrée est un nombre mais le schéma indique 'string'
RéessayerL'erreur est renvoyée à l'IA avec du contexte sur ce qui s'est mal passé.
Tentative 2L'IA corrige le type en number. Les 8 règles sont validées. Le schéma est accepté.

Cette approche est bien plus fiable que de demander à l'IA de « faire attention aux types » dans le prompt. Le validateur détecte les erreurs concrètes et fournit à l'IA un retour précis pour les corriger. Apprenez-en plus sur chaque règle dans le guide Règles de validation.

Ce que contient le schéma

Un schéma généré est plus qu'une simple définition de types. Chaque propriété inclut des métadonnées qui guident le processus d'enrichissement :

Type

Type de schéma JSON (string, number, integer, boolean, array, object)

Description

Description contextuelle qui indique à l'IA quelles informations rechercher

Expertise

Indique quel domaine d'expertise (financier, réglementaire, etc.) fournit cette valeur

Clé de recherche

Indique si ce champ identifie l'entité (recherche) ou déduplique les tableaux (fusion)

Nullable

Indique si le champ peut être null, évitant des tentatives inutiles pour les données optionnelles

Multilingue

Indique si le champ doit être enrichi dans plusieurs langues

Conserver

Indique s'il faut conserver la valeur d'origine inchangée pendant l'enrichissement

Exemples

Des valeurs d'exemple réalistes qui guident l'IA vers le bon format

Détection du domaine d'expertise

L'IA regroupe les propriétés du schéma en domaines d'expertise selon leur signification sémantique. Par exemple, le schéma d'une entreprise pharmaceutique pourrait avoir des domaines comme « Analyste financier », « Expert réglementaire » et « Informations sur l'entreprise ». Ces domaines sont utilisés par la stratégie multi-expertise pour exécuter des appels LLM parallèles et spécialisés afin d'obtenir des résultats plus approfondis.

Limites du nombre de domaines

Le nombre de domaines d'expertise est automatiquement limité en fonction du nombre de propriétés de vos données afin d'éviter une fragmentation excessive :

5 propriétés
1 domaine
12 propriétés
2 domaines
30 propriétés
5 domaines
60 propriétés
10 domaines

Post-traitement

Après que l'IA a généré un schéma valide, trois étapes déterministes de post-traitement l'affinent en fonction de vos données d'entrée réelles :

Détection des champs nullables

Les champs avec des valeurs null dans votre entrée sont automatiquement marqués comme nullables, afin que l'IA ne gaspille pas de tentatives à essayer de les remplir.

Effacement en cas de clé de recherche vide

Les marqueurs de clé de recherche sont retirés des champs à valeur vide (null, chaîne vide, zéro), car ils ne peuvent pas aider à identifier l'entité.

Collecte d'expertise

Tous les domaines d'expertise uniques sont extraits du schéma pour les métriques et la configuration des stratégies.

Édition de schéma par IA

Après la génération, vous pouvez modifier les schémas à l'aide d'instructions en langage naturel. Saisissez une commande et l'IA applique la modification tout en préservant la structure existante de votre schéma. Chaque modification produit également 5 suggestions d'améliorations supplémentaires.

Exemples de commandes d'édition

Ajouter un champ entier employee_count
Créer un objet adresse imbriqué avec ville et pays
Ajouter des descriptions en français à tous les champs texte
Définir une référence de société mère avec $defs
Marquer le champ site web comme nullable

Les modifications de l'IA sont validées à l'aide d'un sous-ensemble des règles de génération (vérification des types, intégrité des références, cohérence des expertises) sans comparaison avec les données d'entrée, car vous pouvez intentionnellement ajouter ou supprimer des champs.

Suggestions IA

La génération de schéma comme l'édition IA produisent 5 suggestions ciblées couvrant différentes catégories d'amélioration :

Complétude des donnéesChamps manquants qui pourraient enrichir votre entité
Qualité des donnéesMotifs de validation, contraintes de format
RelationsStructures imbriquées, références d'entités via $defs
InternationalisationTraductions multilingues, prise en charge des locales
Contexte métierChamps spécifiques au domaine et regroupements d'expertise

Les suggestions apparaissent sous forme de puces cliquables dans l'éditeur de schéma — cliquez sur l'une d'elles pour préremplir le champ d'édition IA et l'appliquer.

Prochaines étapes