Génération de schéma par IA - Entity Enricher

Génération de schéma par IA

Collez n'importe quel échantillon de données JSON et laissez l'IA générer un schéma d'enrichissement entièrement typé -- avec domaines d'expertise, clés de recherche, détection des champs multilingues et règles de validation. Le processus de génération inclut jusqu'à 6 tentatives d'auto-correction, garantissant que le schéma est valide avant même que vous ne le voyiez.

Pipeline de génération de schéma

ÉTAPE 1

Coller un échantillon JSON

Tout objet ou tableau JSON représentant vos données d'entité

ÉTAPE 2

L'IA génère le schéma

Le LLM analyse les types de données, l'imbrication, les conventions de nommage et l'expertise du domaine

ÉTAPE 3

Validation à 8 règles

1.Exactitude des types

2.Validité des cibles $ref

3.Attribution d'expertise

4.Limites du nombre d'expertises

5.Validité des clés de recherche

6.Nommage des propriétés

7.Profondeur de structure imbriquée

8.Contraintes de champs obligatoires

Si la validation échoue, les erreurs sont renvoyées au LLM pour auto-correction (jusqu'à 6 tentatives)

ÉTAPE 4

Post-traitement

Détection de nullabilité, rétrogradation des clés de recherche, collecte d'expertise

SORTIE

Schéma d'enrichissement validé

Prêt pour l'enrichissement avec des propriétés typées, des domaines d'expertise et des clés de recherche

Auto-correction via ModelRetry

Les LLM génèrent parfois des schémas présentant des problèmes structurels -- une incohérence de type entre le schéma et les données d'entrée, un $ref pointant vers une définition inexistante, ou trop de domaines d'expertise. Entity Enricher utilise le mécanisme ModelRetry de Pydantic-AI pour détecter ces problèmes et les renvoyer au LLM pour correction au sein de la même exécution de génération.

Cela se fait de manière transparente. Le système valide la sortie du LLM selon 8 règles, et si une règle échoue, les erreurs concernées sont renvoyées au modèle avec des instructions pour les corriger. Cette boucle de reprise s'exécute jusqu'à 6 fois, produisant un schéma valide dans près de 100 % des cas sans intervention manuelle.

Règles de validation appliquées

Exactitude des types

Les types de propriétés du schéma doivent correspondre aux types de données observés dans le JSON d'entrée.

Intégrité des $ref

Tous les pointeurs $ref doivent référencer des entités définies dans la section $defs.

Attribution d'expertise

Chaque propriété doit appartenir à un domaine d'expertise valide.

Nombre d'expertises

Le nombre total de domaines d'expertise doit rester dans les limites configurables.

Validité des clés de recherche

Les clés de recherche doivent référencer des propriétés existantes avec des valeurs non vides.

Nommage des propriétés

Les noms de propriétés doivent suivre la convention snake_case.

Profondeur de structure

La profondeur d'imbrication doit rester dans les limites (10 niveaux par défaut).

Contraintes de champ

Les champs obligatoires, les valeurs min/max et les contraintes d'énumération sont validés.

Post-traitement intelligent

Après que le LLM a généré et auto-corrigé le schéma, des transformations supplémentaires basées sur les données sont appliquées :

Détection de nullabilité

Si les données d'entrée contiennent des valeurs null pour un champ, la propriété du schéma est automatiquement marquée comme nullable. Cela permet aux LLM de renvoyer null pour les champs dont les données sont indisponibles, au lieu de forcer des valeurs hallucinées.

Rétrogradation des clés de recherche

Les champs marqués comme clés de recherche mais dont les valeurs sont vides dans les données d'entrée perdent leur marqueur de clé de recherche. Cela évite que des clés de recherche vides ne diluent la focalisation du prompt d'enrichissement.

Collection d'expertises

Tous les domaines d'expertise sont regroupés depuis les propriétés imbriquées dans une liste de premier niveau, ce qui permet de visualiser d'un coup d'œil la couverture des domaines de votre schéma.

Modifiez les schémas en langage naturel

Après avoir généré un schéma, vous pouvez le modifier à l'aide d'instructions en langage naturel. Saisissez par exemple « ajouter une référence parent_company avec name et ownership_percentage » et l'IA applique la modification structurelle, en conservant toutes les règles de validation et les affectations de domaines d'expertise.

Chaque modification par IA produit également 5 suggestions d'amélioration -- comme l'ajout de champs manquants, l'amélioration des descriptions ou la réorganisation des domaines d'expertise. Vous pouvez appliquer ces suggestions en un seul clic.

Pour un contrôle direct, l'éditeur de schéma visuel offre le réordonnancement des propriétés par glisser-déposer, l'édition des champs en ligne, la navigation au clavier et une prise en charge complète de l'annulation/rétablissement. Consultez la documentation de l'éditeur de schéma pour plus de détails.

Du schéma à une sortie typée

Entity Enricher ne se contente pas de générer un document de schéma JSON -- il convertit votre schéma en modèle Pydantic dynamique à l'exécution. Ce modèle sert ensuite de type de sortie structurée pour les agents Pydantic-AI, ce qui signifie que la sortie du LLM est validée par rapport à votre schéma au niveau des types. Les sorties invalides déclenchent des nouvelles tentatives automatiques.

Cette approche combine la flexibilité des schémas définis par l'utilisateur avec la sûreté de typage des modèles compilés. Vous obtenez le meilleur des deux mondes : définissez la forme que vous voulez, et le système l'applique automatiquement.

Documentation sur la génération de schéma|Règles de validation|Enrichissement multi-modèle|Traitement par lot|Toutes les fonctionnalités

Générez votre premier schéma

Collez un échantillon JSON, choisissez un modèle et obtenez un schéma d'enrichissement validé en quelques secondes. Affinez-le ensuite en langage naturel ou avec l'éditeur visuel.

Commencer gratuitement