Traitement par lot - Documentation Entity Enricher

Traitement par lot

Enrichissez jusqu'à 100 entités en parallèle avec suivi de progression en temps réel, fusion multi-modèles automatique et export en JSON ou Excel.

Méthodes de saisie

L'enrichissement par lot prend en charge deux façons de fournir les données d'entité :

Éditeur JSON

Collez ou saisissez directement un tableau JSON d'entités. L'éditeur offre la coloration syntaxique, des marqueurs de validation et conserve vos données entre les sessions dans le stockage local.

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

Récupération d'URL

Récupérez des entités depuis n'importe quel point de terminaison d'API REST. Le système extrait automatiquement les tableaux des enveloppes de réponse courantes.

Authentification prise en charge :

AucunJeton BearerEn-tête de clé APIBasic Auth

Si l'API renvoie un objet, le système vérifie des clés comme data, results, items à la recherche d'un tableau imbriqué.

Sélection et validation des entités

Après le chargement des entités, celles-ci apparaissent dans une liste sélectionnable avec leur statut de validation. Vous pouvez choisir les entités à inclure dans le traitement par lot :

Sélection multipleCliquez pour sélectionner des entités individuellement. Maj+clic pour les plages. Ctrl+A pour tout sélectionner, Ctrl+D pour tout désélectionner.
Édition en ligneCliquez sur les champs clés de recherche (nom, pays, etc.) pour les modifier directement dans la liste avant l'enrichissement.
ValidationChaque entité est validée par rapport aux clés de recherche du schéma. Au moins une clé de recherche doit être renseignée. Les entités invalides affichent des avertissements mais peuvent tout de même être sélectionnées.
Traitement sélectifSeules les entités sélectionnées sont envoyées pour enrichissement. Désélectionnez les entités que vous ne souhaitez pas traiter.

Configuration

La barre latérale reprend les options de configuration de l'enrichissement unitaire :

OptionDescription
SchémaSchéma cible qui définit la structure de sortie de l'enrichissement
StratégiePasse unique, domaines d'expertise ou multi-expertise (appels parallèles par domaine)
ModèlesUn ou plusieurs modèles IA à exécuter par entité. Plusieurs modèles permettent la fusion automatique.
LanguesLangues pour l'enrichissement de champs multilingues (p. ex. anglais + français)
ClassificationModèle rapide facultatif pour la vérification du type d'entité avant l'enrichissement
ArbitrageModèle utilisé pour la résolution des conflits par LLM lors de la fusion. Si non défini, une fusion basée sur des règles est utilisée.

Estimation des coûts

Avant de lancer un traitement par lot, une boîte de dialogue de confirmation affiche une estimation du coût et un récapitulatif. L'estimation est calculée à partir du nombre de propriétés, de la tarification des modèles et du nombre d'entités et de modèles sélectionnés. Un avertissement s'affiche lorsque le nombre total d'appels LLM dépasse 100.

Entités
20
Modèles
2
Total des appels
~40
Coût estimé
~$1.50

Exécution parallèle

Toutes les entités sélectionnées sont traitées simultanément. Chaque entité passe indépendamment par le pipeline d'enrichissement complet :

Pipeline par entité

  1. Classification (facultatif) — Un modèle rapide vérifie le type d'entité. En mode traitement par lot, les non-correspondances ne mettent pas la tâche en pause ; le contexte est transmis.
  2. Enrichissement multi-modèles — Chaque modèle sélectionné enrichit l'entité en parallèle, avec une limitation de débit par fournisseur.
  3. Fusion automatique (lorsque 2 modèles ou plus réussissent) — Les résultats sont automatiquement fusionnés grâce à la détection et résolution des conflits.

Limitation de débit

Un limiteur de débit global évite de surcharger les fournisseurs d'IA. Toutes les entités partagent les mêmes limites de concurrence par fournisseur (généralement 5 appels simultanés par fournisseur). Avec 20 entités et 2 modèles, jusqu'à 5 appels s'exécutent simultanément par fournisseur — les autres attendent qu'un créneau se libère. Cela garantit une exécution fiable sans atteindre les limites de débit de l'API.

Progression en temps réel

Le panneau de résultats affiche la progression en direct via Server-Sent Events (SSE). Chaque entité dispose d'une carte repliable mise à jour en temps réel :

En attente

En attente du démarrage du traitement

En cours d'exécution

En cours d'enrichissement, avec des badges de progression d'expertise indiquant l'avancement par domaine

Terminé

Tous les modèles ont terminé avec succès. La carte se replie automatiquement.

Partiel

Certains modèles ou expertises ont échoué. Résultats partiels disponibles.

Échec

Tous les modèles ont échoué pour cette entité. Les détails de l'erreur sont affichés.

Annulation et gestion des erreurs

Vous pouvez annuler un traitement par lot en cours à tout moment. L'annulation est coopérative — les entités déjà en cours terminent leur appel LLM actuel, mais aucun nouvel appel ne démarre. Les résultats partiels des entités terminées sont conservés.

Résilience aux erreurs

Le traitement par lot est conçu pour être résilient. Les échecs individuels n'interrompent pas le traitement par lot :

  • Si la classification échoue pour une entité, l'enrichissement se poursuit sans contexte
  • Si un modèle échoue, les autres modèles pour cette entité continuent
  • Si tous les modèles échouent pour une entité, celle-ci est marquée comme échouée tandis que les autres continuent
  • Les modèles qui renvoient des erreurs « introuvable » sont automatiquement désactivés

Formats d'export

Une fois le traitement par lot terminé, exportez les résultats dans trois formats. Pour chaque entité, le résultat de fusion est privilégié s'il est disponible ; sinon, le meilleur résultat de modèle est utilisé.

Fichier JSON

Téléchargez les résultats complets sous forme de fichier JSON structuré contenant toutes les données d'entité, les sorties des modèles et les métadonnées de fusion.

Presse-papiers

Copiez les résultats JSON directement dans votre presse-papiers pour les coller dans d'autres outils ou scripts.

Excel

Un classeur à trois feuilles : Results (une ligne par entité avec les propriétés aplaties), Summary (métadonnées du traitement par lot, modèles, coûts) et Conflicts (détails des conflits par entité avec le raisonnement de résolution).

Limites

LimiteValeur
Nombre max d'entités par traitement par lot100
Taille max des données d'entité50 000 caractères
Longueur max du prompt100 000 caractères
Délai de récupération d'URL dépassé30 secondes

Prochaines étapes