문서 첨부파일 - Entity Enricher 문서

문서 첨부파일

PDF, 이미지, 오디오 녹음, Office 문서, 스프레드시트, 슬라이드, 텍스트 파일을 모든 강화, 스키마 생성, 샘플 생성, AI 스키마 편집 또는 플레이그라운드 요청에 첨부하세요. 파일은 네이티브 바이트(PDF, 비전, 오디오 지원 모델의 경우)로 전달되거나 서버에서 추출된 텍스트로 프롬프트에 인라인 삽입되어 모델에 전달됩니다 — 수동 OCR, 전사, 변환 또는 청킹이 필요하지 않습니다.

문서를 첨부할 수 있는 위치

단일 보강
JSON 입력과 함께 제공되는 레코드별 첨부파일
배치 보강
batch의 모든 entity에 적용되는 공유 attachment
스키마 생성(가이드)
예시 문서에서 스키마를 생성합니다
샘플 JSON 생성
소스 파일에서 샘플 엔티티 추출
AI 스키마 편집
자연어와 참조 문서로 스키마를 다듬습니다
Playground
attachment를 포함한 자유 형식 맞춤 prompt

두 가지 전달 모드

지원되는 각 MIME 유형에는 관리자가 구성한 전달 모드가 있습니다. 이 모드는 파일이 모델에 도달하는 방식을 결정합니다.

binary네이티브 바이트

원본 바이트는 BinaryContent로 모델에 전달됩니다. 모델이 파일을 직접 읽습니다 — 서버 측 전처리가 없습니다.

일치하는 기능 플래그를 가진 모델이 필요합니다 (PDF의 경우 supports_pdf_input, 이미지의 경우 supports_vision, 오디오의 경우 supports_audio_input). 모델 선택기는 호환되는 모델만 표시하도록 자동으로 필터링됩니다.

inline_text추출된 텍스트

서버 측 추출기는 업로드 시점에 한 번 실행되어 결과 텍스트를 캐시합니다. 이후 모든 LLM 호출에서 캐시된 텍스트가 사용자 프롬프트에 인라인으로 삽입됩니다.

모델 기능이 필요하지 않습니다 — 모든 모델과 작동합니다. 일반 텍스트와 Markdown은 추출기를 건너뛰고 원시 바이트를 직접 디코딩합니다.

지원되는 형식

19가지 형식이 기본적으로 활성화되어 제공됩니다. 시스템 관리자는 모델 관리 → 문서 정책에서 형식을 binaryinline_text 모드 간에 전환하거나, 라벨을 변경하거나, 완전히 비활성화할 수 있습니다.

형식확장 기능기본 모드기능 / 추출기
PDF 문서.pdfbinarysupports_pdf_input
PNG 이미지.pngbinarysupports_vision
JPEG 이미지.jpg, .jpegbinarysupports_vision
MP3 오디오.mp3binarysupports_audio_input
WAV 오디오.wavbinarysupports_audio_input
M4A 오디오.m4abinarysupports_audio_input
OGG 오디오.ogg, .ogabinarysupports_audio_input
FLAC 오디오.flacbinarysupports_audio_input
일반 텍스트.txtinline_text원시 디코드
Markdown.md, .markdowninline_text원시 디코드
Word (레거시 .doc).docbinarydocx2txt
Word (.docx).docxbinarypython-docx
OpenDocument 텍스트.odtbinaryodfpy
서식 있는 텍스트 형식.rtfbinarystriprtf
EPUB 전자책.epubbinaryebooklib
HTML.html, .htmbinarybeautifulsoup
CSV.csvbinarycsv (stdlib)
스프레드시트 (.xlsx).xlsxbinaryopenpyxl
프레젠테이션 (.pptx).pptxbinarypython-pptx

제한

10MB
파일당
이 한도를 초과하는 업로드를 거부합니다
50MB
요청당
단일 업로드의 모든 파일 합계
제한 없음
파일 수
요청당 총 50MB 한도만 적용됩니다
추출 텍스트 상한: 첨부 파일당 500 KB — 더 긴 원본 문서는 서버 측에서 추출할 때 잘립니다. 추출기 타임아웃: 첨부 파일당 실제 경과 시간 10초(타임아웃을 초과하는 업로드도 성공하며, 파일은 저장되지만 추출된 텍스트는 비어 있습니다).

수명 주기

1
업로드
지원되는 모든 페이지의 attachment 패널에서 파일을 끌어다 놓거나 선택하세요. 브라우저가 제공하는 콘텐츠 유형은 신뢰되지 않습니다 — 서버가 매직 바이트를 검사하여 허용 목록에 없는 항목은 거부합니다. 각 파일은 해시(SHA-256) 처리되어 암호화된 블록 스토리지에 저장됩니다.
2
콘텐츠 기준 중복 제거
동일한 바이트를 같은 조직 내에서 두 번 업로드하면 하나의 저장 파일로 중복 제거됩니다. 서로 다른 두 조직이 같은 파일을 업로드하면 독립된 두 개의 행이 생성되며, 테넌트 간 유출은 없습니다. 중복 제거 키는 (organization_id, sha256)입니다.
3
한 번 추출 (inline_text 모드)
inline_text 형식의 경우 추출기가 업로드 시점에 실행되며 결과 텍스트가 attachment 행에 캐시됩니다. 이후 LLM 호출은 캐시된 텍스트를 재사용하므로 재추출 비용이 없습니다. binary 형식은 이 단계를 건너뜁니다.
4
어떤 작업에서든 ID로 참조합니다
업로드된 후 첨부파일은 이후의 보강, 스키마 생성 또는 playground 요청에서 ID로 전달됩니다. 각 첨부파일은 네이티브 바이트(binary 모드) 또는 인라인 텍스트(inline_text 모드)로 모델의 사용자 콘텐츠에 추가되며, 원본 파일 이름이 유지됩니다.
5
레코드에 저장됨
보강 레코드가 저장되면 첨부 파일 ID가 해당 레코드에 연결됩니다. 레코드 상세 페이지에는 다운로드 버튼과 함께 모든 첨부 파일이 나열됩니다. 레코드는 다시 업로드하지 않고도 재병합하거나 재시도할 수 있습니다.
6
완료 시 삭제 (선택 사항)
파일이 더 이상 필요 없으면 DELETE /api/attachments/{id}로 삭제합니다 — 보강 후 정리 단계로 유용합니다. 삭제는 조직 범위로 이루어지며 { success, id, filename }을 반환합니다.

첨부 파일은 웹 UI뿐만 아니라 프로그래밍 방식으로도 업로드하고 삭제할 수 있습니다. n8n 커넥터는 네이티브 multipart로 업로드하고, Make.com 및 MCP 커넥터는 base64 JSON 경로로 업로드하며, 모든 클라이언트는 REST API를 직접 사용할 수 있습니다(정리용 DELETE /api/attachments/{id}).

자동 model 필터링

기능 요구 사항이 있는 바이너리 파일(PDF, 이미지 또는 오디오)을 첨부하면, model 선택기가 필터링되어 해당 기능을 선언한 model만 표시됩니다. 요구 사항이 다른 여러 파일을 첨부하면, 모든 요구 사항을 충족하는 model만 표시됩니다.

첨부된 파일사용 가능한 모델
PDF 1개supports_pdf_input
PNG 1개supports_vision
MP3 1개supports_audio_input
PDF 1개 + PNG 1개supports_pdf_inputsupports_vision
DOCX 1개(바이너리 모드, 기능 없음)모든 모델 — 기능 플래그가 설정되지 않은 경우 네이티브 바이트 지원으로 간주됩니다
TXT 1개 또는 MD 1개(inline_text 모드)모든 모델 — 텍스트가 프롬프트에 인라인으로 삽입됩니다

가격 및 토큰 사용량

첨부 파일은 모델 provider가 보고한 입력 토큰으로 청구됩니다 — Entity Enricher는 문서당 별도 요금을 부과하지 않습니다. 비용은 파일 유형과 선택한 model에 따라 달라집니다.

PDF, 이미지 및 오디오 (binary 모드)

모델별 입력 토큰을 소비합니다. Anthropic은 PDF 페이지당 약 1700 토큰을 청구하고, OpenAI는 타일 수에 따라 비전 입력 가격을 책정하며, 오디오 지원 모델은 오디오 입력을 재생 시간에 비례하여 측정합니다. 모델 및 가격에서 모델의 가격 카드를 확인하세요.

Office 문서 및 스프레드시트(추출된 텍스트)

추출된 텍스트는 표준 텍스트 요금으로 입력 토큰을 소비합니다. 대용량 문서는 추출 텍스트 500KB로 제한되며, 더 긴 콘텐츠는 잘립니다.

보안 및 테넌시

매직 바이트 스니핑을 포함한 MIME 허용 목록
브라우저가 제공하는 콘텐츠 타입은 무시됩니다. 서버는 파일 헤더를 검사하여 설정된 허용 목록에 없는 것은 모두 거부합니다.
조직 범위 저장소
각 파일은 소유 organization 아래에 저장됩니다. 다운로드 엔드포인트는 org 멤버십을 적용합니다 — API를 통해 다른 테넌트의 파일에 접근할 수 있는 경로는 없습니다.
샌드박스 추출기
각 추출기는 try/except 경계 안에서 10초 실제 시간 제한으로 실행됩니다. 오작동하는 파일이 API 프로세스를 지연시키거나 중단시킬 수 없습니다.
저장 시 암호화
첨부 파일 바이트는 암호화된 블록 스토리지에 저장되며, 제한된 권한으로 애플리케이션 컨테이너에 마운트됩니다.
관리자가 제어하는 MIME별 정책
시스템 관리자는 모든 형식을 전역적으로 비활성화하거나, 형식을 binary에서 inline_text로(또는 그 반대로) 변경하거나, 레이블을 다시 지정할 수 있습니다. 변경 사항은 해당 MIME 유형의 다음 업로드 시 적용됩니다.