La classification préalable vérifie qu'une entité correspond au type de schéma attendu avant le début de l'enrichissement. Cette étape facultative évite les hallucinations et le gaspillage de tokens lorsque les entités ne correspondent pas à votre schéma.
Les LLM sont désireux d'aider. Lorsqu'on leur demande d'enrichir une entité selon un schéma, ils produisent une sortie structurée même si l'entité ne correspond pas du tout au type du schéma. Cela conduit à des données hallucinées qui semblent plausibles mais sont entièrement fausses.
Schéma : « Planète » — Entité : « Titan »
Le LLM traite Titan comme une planète et invente des données : période orbitale, composition de l'atmosphère, nombre de lunes — toutes plausibles en apparence, mais fausses. Titan est en réalité une lune de Saturne.
La classification détecte : « incohérence — Titan est une lune, pas une planète »
Les modèles d'enrichissement reçoivent ce contexte, définissent les champs non pertinents à null et ne renseignent que les propriétés qui s'appliquent réellement à l'entité.
La classification s'exécute en un seul appel LLM rapide avant le démarrage des modèles d'enrichissement. Elle utilise un modèle rapide et économique (comme Claude Haiku ou GPT-4o Mini) pour minimiser les coûts.
L'entité correspond au type du schéma. L'enrichissement se poursuit avec un niveau de confiance élevé.
L'entité est d'un type différent de celui attendu par le schéma. La classification explique ce qu'est réellement l'entité.
L'entité ne peut pas être identifiée avec certitude. Le LLM ne dispose pas d'assez d'informations pour la classifier.
Plusieurs interprétations valides existent. La classification liste les alternatives.
La classification est purement consultative. Si l'appel de classification échoue pour une raison quelconque (erreur de modèle, délai dépassé, limite de débit), l'enrichissement se poursuit normalement sans contexte de classification. Cela garantit que l'étape de classification optionnelle n'empêche jamais l'enrichissement d'aboutir.
La classification est conçue pour s'exécuter sur des modèles rapides et peu coûteux. Elle envoie une charge utile minimale (nom du schéma, description et données d'entité tronquées) et attend une petite réponse structurée. Son coût typique ne représente qu'une fraction de l'enrichissement lui-même — un investissement largement rentabilisé par le gain de précision.
L'interface affiche la progression de la classification en temps réel via des Server-Sent Events. Un événement classification_started est émis au début de la vérification, suivi de classification_completed avec le statut, le niveau de confiance et la description de l'entité. Le résultat s'affiche sous forme de bannière au-dessus des résultats des modèles.
Si vous annulez l'enrichissement pendant la phase de classification, la tâche s'arrête immédiatement sans démarrer aucun modèle d'enrichissement. Aucun token inutile n'est consommé.
Dans l'éditeur de schéma ou la barre latérale d'enrichissement par traitement par lot, recherchez la liste déroulante « Classification ». Sélectionnez un modèle rapide et peu coûteux (Claude Haiku, GPT-4o Mini ou similaire). La classification s'exécutera automatiquement avant le début de l'enrichissement pour chaque entité.
Lorsque vous utilisez l'API REST, incluez le champ classification_model dans votre requête d'enrichissement avec la clé composite du modèle (p. ex. anthropic::claude-haiku-4-5).