مرفقات المستندات - وثائق Entity Enricher

مرفقات المستندات

أرفق ملفات PDF والصور والتسجيلات الصوتية ومستندات Office وجداول البيانات والشرائح والملفات النصية بأي طلب إثراء أو توليد مخطط أو توليد عيّنة أو تعديل مخطط بالذكاء الاصطناعي أو ساحة تجربة. تصل الملفات إلى النموذج إمّا كوحدات بايت أصلية (للنماذج التي تدعم PDF والرؤية والصوت) أو كنص مُستخرَج من الخادم ومُضمَّن في المُوجّه — دون الحاجة إلى OCR يدوي أو نسخ نصي أو تحويل أو تقطيع.

أين يمكنك إرفاق المستندات

إثراء مفرد
مرفقات لكل سجل إلى جانب إدخال JSON
إثراء بالدفعات
المرفقات المشتركة المطبَّقة على كل كيان في الدفعة
توليد المخطط (موجّه)
توليد مخطط من مستند مثال
توليد JSON نموذجي
استخرج كياناً نموذجياً من ملف مصدر
تحرير المخطط بالذكاء الاصطناعي
حسّن مخططًا باستخدام اللغة الطبيعية + مستند مرجعي
ساحة التجربة
موجّهات مخصصة حرة الصياغة مع مرفقات

وضعا تسليم

لكل نوع MIME مدعوم وضع تسليم مُهيّأ من قبل المسؤول. يحدد الوضع كيفية وصول الملف إلى النموذج.

binaryبايتات أصلية

تُمرَّر البايتات الأصلية إلى النموذج بصيغة BinaryContent. يقرأ النموذج الملف مباشرةً — دون أي معالجة مسبقة من جانب الخادم.

يتطلب نموذجًا يحمل علامة القدرة المطابقة (supports_pdf_input لملفات PDF،supports_vision للصور،supports_audio_input للصوت). يُصفّى مُنتقي النماذج تلقائيًا لعرض النماذج المتوافقة فقط.

inline_textالنص المُستخرَج

يعمل المستخرِج من جانب الخادم مرة واحدة عند الرفع ويخزّن النص الناتج مؤقتاً. وفي كل استدعاء لاحق لنموذج LLM يُدرَج النص المخزّن ضمن موجّه المستخدم.

لا حاجة لأي قدرة في الموديل — يعمل مع كل موديل. يتخطى النص العادي وMarkdown أداة الاستخراج ويفكّان تشفير البايتات الخام مباشرةً.

الصيغ المدعومة

تُفعَّل 19 صيغة افتراضيًا. يمكن لمسؤولي النظام تبديل أي صيغة بين وضع binary وinline_text، أو تغيير تسميتها، أو تعطيلها بالكامل من Model Management → Document policies.

الصيغةالإضافاتالوضع الافتراضيالقدرة / المستخرِج
مستند PDF.pdfbinarysupports_pdf_input
صورة PNG.pngbinarysupports_vision
صورة JPEG.jpg, .jpegbinarysupports_vision
صوت MP3.mp3binarysupports_audio_input
صوت WAV.wavbinarysupports_audio_input
صوت M4A.m4abinarysupports_audio_input
صوت OGG.ogg, .ogabinarysupports_audio_input
صوت FLAC.flacbinarysupports_audio_input
نص عادي.txtinline_textفكّ ترميز خام
Markdown.md, .markdowninline_textفكّ ترميز خام
Word ‏(النسخة القديمة ‎.doc).docbinarydocx2txt
Word ‏(.docx).docxbinarypython-docx
نص OpenDocument.odtbinaryodfpy
تنسيق النص الغني.rtfbinarystriprtf
كتاب إلكتروني EPUB.epubbinaryebooklib
HTML.html, .htmbinarybeautifulsoup
CSV.csvbinarycsv (stdlib)
جدول بيانات (.xlsx).xlsxbinaryopenpyxl
عرض تقديمي (.pptx).pptxbinarypython-pptx

الحدود

10 ميغابايت
لكل ملف
رفض التحميل الذي يتجاوز هذا الحد
50 ميجابايت
لكل طلب
مجموع كل الملفات في عملية رفع واحدة
بدون حد
عدد الملفات
مقيّد فقط بحد 50 ميغابايت الإجمالي لكل طلب
حد النص المُستخرَج: 500 كيلوبايت لكل مرفق — تُقتطع المستندات المصدرية الأطول عند استخراجها على جانب الخادم. مهلة المُستخرِج: 10 ثوانٍ زمنية فعلية لكل مرفق (عمليات الرفع التي تتجاوز المهلة تنجح مع ذلك؛ يُخزَّن الملف لكن يكون نصه المُستخرَج فارغًا).

دورة الحياة

1
رفع
اسحب الملفات وأفلتها أو اخترها في لوحة المرفقات في أي صفحة مدعومة. لا يُوثَق بنوع المحتوى الذي يوفره المتصفح — إذ يفحص الخادم وحدات البايت المميزة ويرفض أي شيء خارج قائمة السماح. يُجزَّأ كل ملف (SHA-256) ويُخزَّن على وحدة تخزين كتلي مشفّرة.
2
إزالة التكرار حسب المحتوى
البايتات المتطابقة التي تُرفَع مرتين داخل المؤسسة نفسها تُدمَج في ملف واحد مخزَّن. أما رفع مؤسستين مختلفتين للملف نفسه فينتج عنه صفّان مستقلان — دون أي تسرب بين المستأجرين. مفتاح إزالة التكرار هو (organization_id, sha256).
3
الاستخراج مرة واحدة (وضع inline_text)
بالنسبة إلى صيغ inline_text، يعمل المستخرِج وقت الرفع ويُخزَّن النص الناتج مؤقتاً في صف المرفق. تُعيد استدعاءات LLM اللاحقة استخدام النص المخزَّن مؤقتاً — دون أي تكلفة إعادة استخراج. أما صيغ binary فتتخطى هذه الخطوة.
4
الإشارة بالمعرّف في أي مهمة
بمجرد الرفع، تُمرَّر المرفقات عبر المُعرّف في طلبات الإثراء أو توليد المخطط أو منصة الاختبار اللاحقة. يُضاف كل مرفق إلى محتوى المستخدم في النموذج إما كبايتات أصلية (وضع binary) أو كنص مضمَّن (وضع inline_text)، مع الحفاظ على اسم الملف الأصلي.
5
محفوظ في السجل
عند حفظ سجل إثراء، تُربط معرّفات المرفقات به. تعرض صفحة تفاصيل السجل جميع المرفقات مع زر تنزيل. ويمكن إعادة دمج السجلات أو إعادة محاولتها دون إعادة الرفع.
6
الحذف عند الانتهاء (اختياري)
عندما لم تعد بحاجة إلى ملف، احذفه عبر DELETE /api/attachments/{id} — خطوة تنظيف مفيدة بعد الإثراء. يقتصر الحذف على المؤسسة ويُرجع { success, id, filename }.

يمكن رفع المرفقات وحذفها برمجيًا، وليس فقط من واجهة الويب: يرفع موصّل n8n عبر multipart الأصلي، ويرفع موصّلا Make.com وMCP عبر مسار base64 JSON، ويمكن لأي عميل استخدام REST API مباشرةً (DELETE /api/attachments/{id} للتنظيف).

التصفية التلقائية للنماذج

عند إرفاق ملف ثنائي بمتطلب قدرة معيّن (PDF أو صورة أو صوت)، تتم تصفية منتقي النماذج لعرض النماذج التي تعلن عن تلك القدرة فقط. وإذا أرفقت عدة ملفات بمتطلبات مختلفة، تظهر فقط النماذج التي تستوفي جميع المتطلبات.

الملفات المرفقةالنماذج المؤهلة
ملف PDF واحدsupports_pdf_input
ملف PNG واحدsupports_vision
1 MP3supports_audio_input
ملف PDF واحد + ملف PNG واحدsupports_pdf_input وsupports_vision
ملف DOCX واحد (الوضع الثنائي، دون قدرة)جميع النماذج — يُفترَض الدعم الأصلي للبايتات عند عدم ضبط أي علامة قدرة
ملف TXT واحد أو ملف MD واحد (وضع inline_text)جميع النماذج — يُدرَج النص ضمن المُوجّه

التسعير واستخدام الرموز

تُحتسب تكلفة المرفقات باعتبارها رموز إدخال يبلّغ عنها مزوّد النموذج — لا يفرض Entity Enricher رسومًا منفصلة لكل مستند. تعتمد التكلفة على نوع الملف والنموذج المحدَّد.

ملفات PDF والصور والصوت (وضع binary)

تستهلك رموزًا مميزة (tokens) للإدخال خاصة بكل نموذج. يتقاضى Anthropic نحو 1700 رمز لكل صفحة PDF؛ ويسعّر OpenAI مدخلات الرؤية حسب عدد البلاطات؛ وتقيس النماذج الداعمة للصوت مُدخل الصوت بما يتناسب مع مدته. راجع بطاقة تسعير نموذجك في Models & Pricing.

المستندات المكتبية وجداول البيانات (نص مُستخرج)

يستهلك النص المستخرَج رموز الإدخال بالمعدّل القياسي للنص. تُقتصر المستندات الكبيرة على 500 كيلوبايت من النص المستخرَج — ويُقتطع المحتوى الأطول.

الأمان والاستئجار

قائمة MIME المسموح بها مع فحص البايتات السحرية
يتم تجاهل نوع المحتوى الذي يوفره المتصفح. يفحص الخادم ترويسات الملف ويرفض أي شيء خارج قائمة السماح المُهيّأة.
تخزين مقصور على المؤسسة
يُخزَّن كل ملف ضمن المنظمة المالكة له. وتفرض نقطة نهاية التنزيل عضوية المنظمة — فلا يوجد مسار عبر الـ API للوصول إلى ملفات مستأجر آخر.
مستخرِجات معزولة
يعمل كل مستخرِج بمهلة زمنية فعلية قدرها 10 ثوانٍ ضمن حدود try/except. فلا يمكن لملف مُعطِّل أن يُوقف عملية الـ API أو يُعطّلها.
مُشفّر عند التخزين
تُخزَّن وحدات بايت المرفقات على تخزين كتلي مُشفَّر، مُركَّب داخل حاوية التطبيق بأذونات مقيَّدة.
سياسات لكل نوع MIME يتحكم بها المشرف
يمكن لمسؤولي النظام تعطيل أي صيغة على مستوى النظام، أو تغيير صيغة من binary إلى inline_text (أو العكس)، أو إعادة تسميتها. تسري التغييرات عند عملية الرفع التالية لنوع MIME ذاك.