Pièces jointes de documents - Documentation Entity Enricher

Pièces jointes de documents

Joignez des PDF, des images, des enregistrements audio, des documents Office, des feuilles de calcul, des diapositives et des fichiers texte à n'importe quelle requête d'enrichissement, de génération de schéma, de génération d'échantillon, de modification de schéma par IA ou de playground. Les fichiers parviennent au modèle soit sous forme d'octets natifs (pour les modèles compatibles PDF, vision et audio), soit sous forme de texte extrait côté serveur et intégré au prompt — aucun OCR, transcription, conversion ou découpage manuel requis.

Où joindre des documents

Enrichissement unique

Pièces jointes par enregistrement en complément de l'entrée JSON

Enrichissement par lot

Pièces jointes partagées appliquées à chaque entité du traitement par lot

Génération de schéma (guidée)

Générer un schéma à partir d'un document d'exemple

Génération de JSON d'exemple

Extraire une entité d'exemple depuis un fichier source

Édition de schéma par IA

Affinez un schéma en langage naturel + un document de référence

Aire de test

Prompts personnalisés libres avec pièces jointes

Deux modes de livraison

Chaque type MIME pris en charge possède un mode de livraison configuré par l'administrateur. Ce mode détermine comment le fichier parvient au modèle.

binaryOctets natifs

Les octets d'origine sont transmis au modèle sous forme de BinaryContent. Le modèle lit le fichier directement — aucun prétraitement côté serveur.

Nécessite un modèle doté de l'indicateur de capacité correspondant (supports_pdf_input pour les PDF, supports_vision pour les images, supports_audio_input pour l'audio). Le sélecteur de modèles est automatiquement filtré pour n'afficher que les modèles compatibles.

inline_textTexte extrait

Un extracteur côté serveur s'exécute une seule fois au moment de l'envoi et met en cache le texte obtenu. À chaque appel LLM ultérieur, le texte en cache est inséré dans le prompt utilisateur.

Aucune capacité de modèle requise — fonctionne avec tous les modèles. Le texte brut et le Markdown contournent l'extracteur et décodent directement les octets bruts.

Formats pris en charge

19 formats sont activés par défaut. Les administrateurs système peuvent basculer n'importe quel format entre le mode binary et inline_text, modifier son libellé ou le désactiver entièrement depuis Gestion des modèles → Politiques de documents.

Format	Extensions	Mode par défaut	Capacité / extracteur
Document PDF	.pdf	binary	`supports_pdf_input`
Image PNG	.png	binary	`supports_vision`
Image JPEG	.jpg, .jpeg	binary	`supports_vision`
Audio MP3	.mp3	binary	`supports_audio_input`
Audio WAV	.wav	binary	`supports_audio_input`
Audio M4A	.m4a	binary	`supports_audio_input`
Audio OGG	.ogg, .oga	binary	`supports_audio_input`
Audio FLAC	.flac	binary	`supports_audio_input`
Texte brut	.txt	inline_text	décodage brut
Markdown	.md, .markdown	inline_text	décodage brut
Word (ancien .doc)	.doc	binary	docx2txt
Word (.docx)	.docx	binary	python-docx
Texte OpenDocument	.odt	binary	odfpy
Format de texte enrichi	.rtf	binary	striprtf
Livre numérique EPUB	.epub	binary	ebooklib
HTML	.html, .htm	binary	beautifulsoup
CSV	.csv	binary	csv (stdlib)
Feuille de calcul (.xlsx)	.xlsx	binary	openpyxl
Présentation (.pptx)	.pptx	binary	python-pptx

Limites

10 Mo

Par fichier

Rejeter les téléversements au-delà de ce plafond

50 Mo

Par requête

Somme de tous les fichiers d'un même envoi

Aucune limite

Nombre de fichiers

Limité uniquement par le total de 50 Mo par requête

Plafond de texte extrait : 500 Ko par pièce jointe — les documents sources plus longs sont tronqués lors de l'extraction côté serveur. Délai d'expiration de l'extracteur : 10 s de temps réel par pièce jointe (les envois qui dépassent ce délai réussissent quand même ; le fichier est stocké mais son texte extrait est vide).

Cycle de vie

Téléverser

Glissez-déposez ou sélectionnez des fichiers dans le panneau de pièces jointes de toute page prise en charge. Le type de contenu fourni par le navigateur n'est pas considéré comme fiable — le serveur analyse les octets magiques et rejette tout ce qui ne figure pas dans la liste d'autorisation. Chaque fichier est haché (SHA-256) et stocké sur un stockage en mode bloc chiffré.

Déduplication par contenu

Des octets identiques téléversés deux fois au sein de la même organisation sont dédupliqués en un seul fichier stocké. Deux organisations différentes téléversant le même fichier produisent deux lignes indépendantes — aucune fuite entre locataires. La clé de déduplication est (organization_id, sha256).

Extraire une fois (mode inline_text)

Pour les formats inline_text, l'extracteur s'exécute au moment du téléversement et le texte obtenu est mis en cache sur la ligne de la pièce jointe. Les appels LLM suivants réutilisent le texte en cache — aucun coût de ré-extraction. Les formats binary ignorent cette étape.

Référencez par ID dans n'importe quelle tâche

Une fois téléversées, les pièces jointes sont transmises par ID dans les requêtes suivantes d'enrichissement, de génération de schéma ou de playground. Chaque pièce jointe est ajoutée au contenu utilisateur du modèle soit sous forme d'octets natifs (mode binary), soit sous forme de texte intégré (mode inline_text), en conservant le nom de fichier d'origine.

Conservé sur l'enregistrement

Lorsqu'un enregistrement d'enrichissement est sauvegardé, les ID des pièces jointes lui sont liés. La page de détail de l'enregistrement liste toutes les pièces jointes avec un bouton de téléchargement. Les enregistrements peuvent être refusionnés ou relancés sans nouveau téléversement.

Supprimer une fois terminé (facultatif)

Une fois qu'un fichier ne vous est plus utile, supprimez-le avec DELETE /api/attachments/{id} — une étape de nettoyage pratique après enrichissement. La suppression est limitée à l'organisation et renvoie { success, id, filename }.

Les pièces jointes peuvent être téléversées et supprimées par programmation, pas seulement depuis l'interface web : le connecteur n8n téléverse en multipart natif, les connecteurs Make.com et MCP téléversent via la route JSON base64, et tout client peut utiliser directement l'API REST (DELETE /api/attachments/{id} pour le nettoyage).

Filtrage automatique des modèles

Lorsque vous joignez un fichier binaire avec une exigence de capacité (PDF, image ou audio), le sélecteur de modèles est filtré pour n'afficher que les modèles qui déclarent cette capacité. Si vous joignez plusieurs fichiers avec des exigences différentes, seuls les modèles satisfaisant toutes les exigences apparaissent.

Fichiers joints	Modèles éligibles
1 PDF	`supports_pdf_input`
1 PNG	`supports_vision`
1 MP3	`supports_audio_input`
1 PDF + 1 PNG	`supports_pdf_input` ET `supports_vision`
1 DOCX (mode binaire, aucune capacité)	Tous les modèles — la prise en charge native des octets est supposée quand aucun indicateur de capacité n'est défini
1 TXT ou 1 MD (mode inline_text)	Tous les modèles — le texte est inséré directement dans le prompt

Tarification et utilisation des tokens

Les pièces jointes sont facturées comme des jetons d'entrée rapportés par le fournisseur du modèle — Entity Enricher n'applique aucuns frais distincts par document. Le coût dépend du type de fichier et du modèle sélectionné.

PDF, images et audio (mode binaire)

Consomment des tokens d'entrée spécifiques au modèle. Anthropic facture environ 1700 tokens par page PDF ; OpenAI tarifie les entrées vision selon le nombre de tuiles ; les modèles compatibles audio mesurent l'entrée audio proportionnellement à sa durée. Consultez la fiche tarifaire de votre modèle dans Modèles et tarifs.

Documents bureautiques et feuilles de calcul (texte extrait)

Le texte extrait consomme des jetons d'entrée au tarif texte standard. Les documents volumineux sont plafonnés à 500 Ko de texte extrait — le contenu au-delà est tronqué.

Sécurité et multilocation

Liste d'autorisation MIME avec détection des octets magiques

Le type de contenu fourni par le navigateur est ignoré. Le serveur inspecte les en-têtes de fichier et rejette tout ce qui ne figure pas dans la liste d'autorisation configurée.

Stockage limité à l'organisation

Chaque fichier est stocké sous son organisation propriétaire. Le point de terminaison de téléchargement vérifie l'appartenance à l'organisation — il n'existe aucun moyen via l'API d'accéder aux fichiers d'un autre locataire.

Extracteurs en sandbox

Chaque extracteur s'exécute avec un délai d'expiration de 10 secondes au sein d'un bloc try/except. Un fichier défectueux ne peut ni bloquer ni faire planter le processus de l'API.

Chiffré au repos

Les octets des pièces jointes résident sur un stockage bloc chiffré, monté dans le conteneur applicatif avec des permissions restreintes.

Politiques par type MIME contrôlées par l'administrateur

Les administrateurs système peuvent désactiver globalement n'importe quel format, changer un format de binaire à inline_text (ou inversement), ou le renommer. Les modifications prennent effet au prochain envoi de ce type MIME.

Flux d'enrichissement

Comment les pièces jointes s'intègrent au pipeline

Génération de schéma