Pièces jointes de documents - Documentation Entity Enricher

Pièces jointes de documents

Joignez des PDF, des images, des enregistrements audio, des documents Office, des feuilles de calcul, des diapositives et des fichiers texte à n'importe quelle requête d'enrichissement, de génération de schéma, de génération d'échantillon, de modification de schéma par IA ou de playground. Les fichiers parviennent au modèle soit sous forme d'octets natifs (pour les modèles compatibles PDF, vision et audio), soit sous forme de texte extrait côté serveur et intégré au prompt — aucun OCR, transcription, conversion ou découpage manuel requis.

Où joindre des documents

Enrichissement unique
Pièces jointes par enregistrement en complément de l'entrée JSON
Enrichissement par lot
Pièces jointes partagées appliquées à chaque entité du traitement par lot
Génération de schéma (guidée)
Générer un schéma à partir d'un document d'exemple
Génération de JSON d'exemple
Extraire une entité d'exemple depuis un fichier source
Édition de schéma par IA
Affinez un schéma en langage naturel + un document de référence
Aire de test
Prompts personnalisés libres avec pièces jointes

Deux modes de livraison

Chaque type MIME pris en charge possède un mode de livraison configuré par l'administrateur. Ce mode détermine comment le fichier parvient au modèle.

binaryOctets natifs

Les octets d'origine sont transmis au modèle sous forme de BinaryContent. Le modèle lit le fichier directement — aucun prétraitement côté serveur.

Nécessite un modèle doté de l'indicateur de capacité correspondant (supports_pdf_input pour les PDF, supports_vision pour les images, supports_audio_input pour l'audio). Le sélecteur de modèles est automatiquement filtré pour n'afficher que les modèles compatibles.

inline_textTexte extrait

Un extracteur côté serveur s'exécute une seule fois au moment de l'envoi et met en cache le texte obtenu. À chaque appel LLM ultérieur, le texte en cache est inséré dans le prompt utilisateur.

Aucune capacité de modèle requise — fonctionne avec tous les modèles. Le texte brut et le Markdown contournent l'extracteur et décodent directement les octets bruts.

Formats pris en charge

19 formats sont activés par défaut. Les administrateurs système peuvent basculer n'importe quel format entre le mode binary et inline_text, modifier son libellé ou le désactiver entièrement depuis Gestion des modèles → Politiques de documents.

FormatExtensionsMode par défautCapacité / extracteur
Document PDF.pdfbinarysupports_pdf_input
Image PNG.pngbinarysupports_vision
Image JPEG.jpg, .jpegbinarysupports_vision
Audio MP3.mp3binarysupports_audio_input
Audio WAV.wavbinarysupports_audio_input
Audio M4A.m4abinarysupports_audio_input
Audio OGG.ogg, .ogabinarysupports_audio_input
Audio FLAC.flacbinarysupports_audio_input
Texte brut.txtinline_textdécodage brut
Markdown.md, .markdowninline_textdécodage brut
Word (ancien .doc).docbinarydocx2txt
Word (.docx).docxbinarypython-docx
Texte OpenDocument.odtbinaryodfpy
Format de texte enrichi.rtfbinarystriprtf
Livre numérique EPUB.epubbinaryebooklib
HTML.html, .htmbinarybeautifulsoup
CSV.csvbinarycsv (stdlib)
Feuille de calcul (.xlsx).xlsxbinaryopenpyxl
Présentation (.pptx).pptxbinarypython-pptx

Limites

10 Mo
Par fichier
Rejeter les téléversements au-delà de ce plafond
50 Mo
Par requête
Somme de tous les fichiers d'un même envoi
Aucune limite
Nombre de fichiers
Limité uniquement par le total de 50 Mo par requête
Plafond de texte extrait : 500 Ko par pièce jointe — les documents sources plus longs sont tronqués lors de l'extraction côté serveur. Délai d'expiration de l'extracteur : 10 s de temps réel par pièce jointe (les envois qui dépassent ce délai réussissent quand même ; le fichier est stocké mais son texte extrait est vide).

Cycle de vie

1
Téléverser
Glissez-déposez ou sélectionnez des fichiers dans le panneau de pièces jointes de toute page prise en charge. Le type de contenu fourni par le navigateur n'est pas considéré comme fiable — le serveur analyse les octets magiques et rejette tout ce qui ne figure pas dans la liste d'autorisation. Chaque fichier est haché (SHA-256) et stocké sur un stockage en mode bloc chiffré.
2
Déduplication par contenu
Des octets identiques téléversés deux fois au sein de la même organisation sont dédupliqués en un seul fichier stocké. Deux organisations différentes téléversant le même fichier produisent deux lignes indépendantes — aucune fuite entre locataires. La clé de déduplication est (organization_id, sha256).
3
Extraire une fois (mode inline_text)
Pour les formats inline_text, l'extracteur s'exécute au moment du téléversement et le texte obtenu est mis en cache sur la ligne de la pièce jointe. Les appels LLM suivants réutilisent le texte en cache — aucun coût de ré-extraction. Les formats binary ignorent cette étape.
4
Référencez par ID dans n'importe quelle tâche
Une fois téléversées, les pièces jointes sont transmises par ID dans les requêtes suivantes d'enrichissement, de génération de schéma ou de playground. Chaque pièce jointe est ajoutée au contenu utilisateur du modèle soit sous forme d'octets natifs (mode binary), soit sous forme de texte intégré (mode inline_text), en conservant le nom de fichier d'origine.
5
Conservé sur l'enregistrement
Lorsqu'un enregistrement d'enrichissement est sauvegardé, les ID des pièces jointes lui sont liés. La page de détail de l'enregistrement liste toutes les pièces jointes avec un bouton de téléchargement. Les enregistrements peuvent être refusionnés ou relancés sans nouveau téléversement.
6
Supprimer une fois terminé (facultatif)
Une fois qu'un fichier ne vous est plus utile, supprimez-le avec DELETE /api/attachments/{id} — une étape de nettoyage pratique après enrichissement. La suppression est limitée à l'organisation et renvoie { success, id, filename }.

Les pièces jointes peuvent être téléversées et supprimées par programmation, pas seulement depuis l'interface web : le connecteur n8n téléverse en multipart natif, les connecteurs Make.com et MCP téléversent via la route JSON base64, et tout client peut utiliser directement l'API REST (DELETE /api/attachments/{id} pour le nettoyage).

Filtrage automatique des modèles

Lorsque vous joignez un fichier binaire avec une exigence de capacité (PDF, image ou audio), le sélecteur de modèles est filtré pour n'afficher que les modèles qui déclarent cette capacité. Si vous joignez plusieurs fichiers avec des exigences différentes, seuls les modèles satisfaisant toutes les exigences apparaissent.

Fichiers jointsModèles éligibles
1 PDFsupports_pdf_input
1 PNGsupports_vision
1 MP3supports_audio_input
1 PDF + 1 PNGsupports_pdf_input ET supports_vision
1 DOCX (mode binaire, aucune capacité)Tous les modèles — la prise en charge native des octets est supposée quand aucun indicateur de capacité n'est défini
1 TXT ou 1 MD (mode inline_text)Tous les modèles — le texte est inséré directement dans le prompt

Tarification et utilisation des tokens

Les pièces jointes sont facturées comme des jetons d'entrée rapportés par le fournisseur du modèle — Entity Enricher n'applique aucuns frais distincts par document. Le coût dépend du type de fichier et du modèle sélectionné.

PDF, images et audio (mode binaire)

Consomment des tokens d'entrée spécifiques au modèle. Anthropic facture environ 1700 tokens par page PDF ; OpenAI tarifie les entrées vision selon le nombre de tuiles ; les modèles compatibles audio mesurent l'entrée audio proportionnellement à sa durée. Consultez la fiche tarifaire de votre modèle dans Modèles et tarifs.

Documents bureautiques et feuilles de calcul (texte extrait)

Le texte extrait consomme des jetons d'entrée au tarif texte standard. Les documents volumineux sont plafonnés à 500 Ko de texte extrait — le contenu au-delà est tronqué.

Sécurité et multilocation

Liste d'autorisation MIME avec détection des octets magiques
Le type de contenu fourni par le navigateur est ignoré. Le serveur inspecte les en-têtes de fichier et rejette tout ce qui ne figure pas dans la liste d'autorisation configurée.
Stockage limité à l'organisation
Chaque fichier est stocké sous son organisation propriétaire. Le point de terminaison de téléchargement vérifie l'appartenance à l'organisation — il n'existe aucun moyen via l'API d'accéder aux fichiers d'un autre locataire.
Extracteurs en sandbox
Chaque extracteur s'exécute avec un délai d'expiration de 10 secondes au sein d'un bloc try/except. Un fichier défectueux ne peut ni bloquer ni faire planter le processus de l'API.
Chiffré au repos
Les octets des pièces jointes résident sur un stockage bloc chiffré, monté dans le conteneur applicatif avec des permissions restreintes.
Politiques par type MIME contrôlées par l'administrateur
Les administrateurs système peuvent désactiver globalement n'importe quel format, changer un format de binaire à inline_text (ou inversement), ou le renommer. Les modifications prennent effet au prochain envoi de ce type MIME.