Classification préalable - Documentation Entity Enricher

Classification préalable

La classification préalable vérifie qu'une entité correspond au type de schéma attendu avant le début de l'enrichissement. Cette étape facultative évite les hallucinations et le gaspillage de tokens lorsque les entités ne correspondent pas à votre schéma.

Pourquoi classifier avant d'enrichir ?

Les LLM sont désireux d'aider. Lorsqu'on leur demande d'enrichir une entité selon un schéma, ils produisent une sortie structurée même si l'entité ne correspond pas du tout au type du schéma. Cela conduit à des données hallucinées qui semblent plausibles mais sont entièrement fausses.

Le problème des hallucinations
Sans classification

Schéma : « Planète » — Entité : « Titan »

Le LLM traite Titan comme une planète et invente des données : période orbitale, composition de l'atmosphère, nombre de lunes — toutes plausibles en apparence, mais fausses. Titan est en réalité une lune de Saturne.

Avec classification

La classification détecte : « incohérence — Titan est une lune, pas une planète »

Les modèles d'enrichissement reçoivent ce contexte, définissent les champs non pertinents à null et ne renseignent que les propriétés qui s'appliquent réellement à l'entité.

Fonctionnement

La classification s'exécute en un seul appel LLM rapide avant le démarrage des modèles d'enrichissement. Elle utilise un modèle rapide et économique (comme Claude Haiku ou GPT-4o Mini) pour minimiser les coûts.

1
Envoyer le type de schéma et les données de l'entité
Le modèle de classification reçoit le nom du schéma, sa description et les données de l'entité (tronquées à 3 000 caractères pour limiter les coûts).
2
Recevez une classification structurée
Le modèle renvoie une réponse structurée avec un statut (match, mismatch, unknown ou ambiguous), une description de ce qu'est réellement l'entité, un niveau de confiance et un raisonnement.
3
Injecter du contexte dans l'enrichissement
Le résultat de la classification est ajouté au début de chaque prompt d'enrichissement dans une section « Pre-flight Classification ». Cela donne aux modèles d'enrichissement un contexte essentiel sur le type d'entité.

Quatre statuts de classification

Correspondance

L'entité correspond au type du schéma. L'enrichissement se poursuit avec un niveau de confiance élevé.

Effet du prompt
Confirme le type d'entité et fournit un contexte supplémentaire aux modèles d'enrichissement.
Exemple
Schéma "Pharmaceutical Company", Entité "Sanofi" — confirmée comme société pharmaceutique.
Discordance

L'entité est d'un type différent de celui attendu par le schéma. La classification explique ce qu'est réellement l'entité.

Effet du prompt
Avertit les modèles d'enrichissement que l'entité ne correspond pas. Leur indique d'utiliser null pour les champs non pertinents.
Exemple
Schéma "Planet", Entité "Titan" — identifiée comme une lune de Saturne, et non une planète.
Inconnu

L'entité ne peut pas être identifiée avec certitude. Le LLM ne dispose pas d'assez d'informations pour la classifier.

Effet du prompt
Indique aux modèles d'enrichissement d'utiliser null en cas d'incertitude plutôt que de deviner.
Exemple
Schéma "Pharmaceutical Company", Entité "XYZ Corp" — informations insuffisantes pour déterminer le type d'entité.
Ambigu

Plusieurs interprétations valides existent. La classification liste les alternatives.

Effet du prompt
Liste les interprétations possibles et demande aux modèles d'enrichissement de choisir la plus probable.
Exemple
Schéma "Company", Entité "Mercury" — il pourrait s'agir de la planète, de l'élément chimique ou de Mercury Insurance.

Propriétés clés

Non bloquant

La classification est purement consultative. Si l'appel de classification échoue pour une raison quelconque (erreur de modèle, délai dépassé, limite de débit), l'enrichissement se poursuit normalement sans contexte de classification. Cela garantit que l'étape de classification optionnelle n'empêche jamais l'enrichissement d'aboutir.

Économique

La classification est conçue pour s'exécuter sur des modèles rapides et peu coûteux. Elle envoie une charge utile minimale (nom du schéma, description et données d'entité tronquées) et attend une petite réponse structurée. Son coût typique ne représente qu'une fraction de l'enrichissement lui-même — un investissement largement rentabilisé par le gain de précision.

Retour en temps réel

L'interface affiche la progression de la classification en temps réel via des Server-Sent Events. Un événement classification_started est émis au début de la vérification, suivi de classification_completed avec le statut, le niveau de confiance et la description de l'entité. Le résultat s'affiche sous forme de bannière au-dessus des résultats des modèles.

Annulable

Si vous annulez l'enrichissement pendant la phase de classification, la tâche s'arrête immédiatement sans démarrer aucun modèle d'enrichissement. Aucun token inutile n'est consommé.

Quand activer la classification

Recommandé
  • Schémas avec un type d'entité restreint (ex. « Société pharmaceutique »)
  • Données d'entrée pouvant contenir des types d'entités mixtes
  • Enrichissement par lot avec des entités issues de sources diverses
  • Lorsque vous utilisez des modèles d'enrichissement coûteux et souhaitez éviter le gaspillage
Non nécessaire
  • Schémas génériques acceptant toute entité (p. ex. « Organisation »)
  • Données d'entrée organisées dont vous contrôlez le type d'entité
  • Itérations rapides où la vitesse compte plus que la précision
  • Schémas sans définition claire du type d'entité

Comment activer

Dans l'éditeur de schéma ou la barre latérale d'enrichissement par traitement par lot, recherchez la liste déroulante « Classification ». Sélectionnez un modèle rapide et peu coûteux (Claude Haiku, GPT-4o Mini ou similaire). La classification s'exécutera automatiquement avant le début de l'enrichissement pour chaque entité.

Lorsque vous utilisez l'API REST, incluez le champ classification_model dans votre requête d'enrichissement avec la clé composite du modèle (p. ex. anthropic::claude-haiku-4-5).