المفاهيم الأساسية - وثائق Entity Enricher

المفاهيم الأساسية

يحوّل Entity Enricher نوعين من المعرفة إلى بيانات منظّمة ومُتحقّق منها: ما تعرفه نماذج اللغة الكبيرة بالفعل، وما يقبع دون قراءة في أرشيفاتك الخاصة — مستندات PDF، والصور، والتسجيلات الصوتية، وملفات المكاتب. ويحصل كل كائن مُستخرَج على هوية دلالية ثابتة، بحيث تتراكم عمليات الإثراء لتشكّل نظام معلومات متماسكًا بدلًا من كومة من النتائج المتفرّقة.

الفكرة الأساسية

تخيّل نماذج LLM بوصفها معرفة بشرية مُقطّرة — مليارات المستندات وقواعد البيانات وصفحات الويب مضغوطة في شبكات عصبية قابلة للاستعلام. يوفّر Entity Enricher الواجهة اللازمة لاستخراج هذه المعرفة بصيغة مُهيكلة وموثوقة تلائم نموذج بياناتك. ولأن النماذج الحديثة يمكنها أيضًا قراءة ملفات PDF ورؤية الصور وسماع الصوت، فإن الواجهة نفسها تستخرج البنية من محتواك الخاص: العقود والتقارير والمسوحات والتسجيلات التي جمعتها شركتك على مدى سنوات.

بياناتك وأرشيفك

سجلات جزئية

المعرّفات الخام

ملفات PDF والمسوحات الضوئية

الصور والصوت

المخطط + LLM

“ماذا أريد أن أعرف؟”

نظام المعلومات الخاص بك

ملفات تعريف مهيكلة

التصنيفات

الحقول متعددة اللغات

معرّفات دلالية مستقرة

مصدران للمعرفة

تعتمد كل عملية إثراء على أحد هذين المصدرين أو كليهما. وهما يكملان بعضهما البعض: يوفّر النموذج المعرفة العامة والاستدلال؛ بينما توفّر مستنداتك الحقائق التي لا توجد إلا داخل مؤسستك.

1. المعرفة التدريبية للنموذج

حقائق عامة عن الشركات والأدوية والأماكن والمنتجات واللوائح — أي شيء تعلّمه النموذج أثناء التدريب. امنحه معرّفًا (اسمًا أو موقعًا إلكترونيًا) ومخططًا، وسيملأ الباقي: القطاع وسنة التأسيس والمقر الرئيسي وآليات العمل. لا حاجة إلى أي مستند.

2. أرشيفاتك غير المنظّمة

المعرفة التي لم تدخل قطّ إلى قاعدة بيانات: العقود، والفواتير، وتقارير الفحص، والنماذج الممسوحة ضوئيًا، وصور المنتجات، والمكالمات المسجّلة. أرفقها بعملية إثراء ويستخرج النموذج حقول مخطّطك مباشرةً من محتواها — دون أي تعرّف ضوئي على الحروف أو نسخ صوتي أو نسخ ولصق يدوي.

راجع مرفقات المستندات للاطلاع على الصيغ المدعومة وأوضاع التسليم.

الركائز الثلاث

1. المخطط: سؤالك إلى قاعدة المعرفة

المخطط ليس مجرد بنية بيانات — إنه سؤال مُصاغ رسمياً تطرحه على المعرفة الجماعية للبشرية، أو على مستند محدد. عندما تُعرّف مخططاً بخصائص مثل companyName وindustry وheadquarters، فأنت في جوهر الأمر تسأل: «بالنظر إلى معرّف شركة، أخبرني باسمها، وبأي قطاع تعمل، وأين يقع مقرها الرئيسي.»

مفهوم المخطط	الغرض
الخصائص	الحقائق المحدّدة التي تريد استخراجها
الأنواع	التنسيق الذي تتوقّعه (سلسلة نصية، رقم، كائن، مصفوفة)
مجالات الخبرة	أي متخصص ينبغي أن يجيب (صيدلاني، مالي، جغرافي)
مفاتيح البحث	المعرّفات التي تساعد في تحديد موقع الكيان في قاعدة المعرفة
المعرّف الدلالي	هوية ثابتة على نطاق المؤسسة بحيث يُتعرَّف على الكائن الواقعي نفسه عبر عمليات الإثراء وأنظمتك الأخرى
الحفاظ	الحقول التي تُمرَّر دون تغيير من إدخالك
متعدد اللغات	حقول تُقدَّم بكل لغة تعمل بها — ميزة أساسية، لا خطوة ترجمة مُلحقة

2. نموذج LLM: معرفة قابلة للاستعلام، وقارئ متعدد الوسائط

تمثّل نماذج اللغة الكبيرة نوعًا جديدًا من قواعد المعرفة. فخلافًا لقواعد البيانات التقليدية التي تُعيد تطابقات دقيقة مع السجلات المخزّنة، تفهم نماذج LLM السياق، وتستنتج من البيانات الناقصة، وتعمّم انطلاقًا من الأنماط. ولم تعد مقتصرة على النص فحسب: فالنماذج القادرة على الرؤية تقرأ الصور والصفحات الممسوحة ضوئيًا، والنماذج القادرة على معالجة ملفات PDF تستوعب المستندات كاملةً، والنماذج القادرة على معالجة الصوت تستمع إلى التسجيلات.

يتعامل Entity Enricher مع نماذج LLM المتعددة بوصفها منظورات معرفية مختلفة. فيجلب كل مزوّد نقاط قوته الخاصة — فيتفوّق Claude في الاستدلال الدقيق، ويمتلك GPT-4 معرفة واسعة، ويقدّم Gemini عمقًا متعدد اللغات، وتحافظ نماذج Ollama المحلية على خصوصية بياناتك.

يتيح لك تشغيل الإثراء نفسه عبر عدة مزوّدين مقارنة الإجابات لتقييم الثقة، وتجميع التوافق من عدة خبراء، وموازنة التكلفة مقابل الجودة. تعرّف على المزيد في الإثراء متعدد النماذج.

3. الإثراء: استخراج المعرفة المنظّمة

الإثراء هو عملية تحديد الكيان باستخدام مفاتيح البحث، واسترجاع المعرفة ذات الصلة من LLM وأي مستندات مرفقة، وهيكلة الاستجابة وفقًا لمخططك، والتحقّق من تطابق المُخرَجات مع الأنواع المتوقعة، والحفاظ على بياناتك الأصلية حيثما يُحدَّد، وأخيرًا حسم الهوية — بمنح كل كائن معرّفه الدلالي الثابت.

المُدخل

{ "name": "Novartis", "website": "novartis.com" }

استخراج المفاتيح → استعلام LLM → التحقق → تحديد الهوية

الإخراج

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

من عمليات الإثراء إلى نظام معلومات

كل عملية إثراء مستقلة. اسأل مرتين وقد يعود الشيء نفسه من العالم الواقعي موصوفاً بشكل مختلف — «Acme Inc.» في يوم، و«Acme Incorporated» في اليوم التالي؛ وأثرٌ جانبي لدواء بوصفه «Headache» أو «Céphalée» أو «Cephalalgia» حسب اللغة أو النموذج. ولكي تبني فعلاً على البيانات المُثراة، تحتاج إلى معرّف ثابت للكيان نفسه.

المعرّف الدلالي هو معرّف على نطاق المؤسسة يسنده Entity Enricher إلى كائن انطلاقًا من حقوله الأساسية، ويُطابَق بحسب المعنى لا التهجئة الدقيقة. يُحلّ الكيان نفسه إلى المعرّف نفسه عبر عمليات الإثراء والنماذج واللغات والزمن. ويُسنَد تلقائيًا بعد تشغيل النموذج — ولا يخترعه LLM أبدًا — ويمكن أن يوجد على أي كائن: الكيان بأكمله، أو كائن متداخل، أو كل عنصر في قائمة.

عملية الإثراء رقم 1

“Acme Inc.”

المعرّف الدلالي نفسه

cpt_abc123

التشغيل رقم 2 — لاحقًا، بنموذج أو لغة مختلفة

“Acme Incorporated”

هذا ما يحوّل تدفقًا من عمليات الإثراء إلى نظام معلومات يمكنك تنميته والاستعلام عنه:

استخدام	ما الذي يتيحه
مفتاح الدمج	مفتاح ثابت لمطابقة السجلات المُثراة مع مستودعك أو نظام إدارة علاقات العملاء أو نظام البيانات الرئيسية لديك
إزالة التكرار	دمج النسخ شبه المكررة الناتجة عبر الدفعات أو النماذج أو سنوات من المستندات في هوية واحدة
التوفيق	أعِد تمرير معرّف دلالي معروف لتُرفَق الحقائق الجديدة بالكيان الذي تتتبعه بالفعل، بدلاً من إنشاء كيان جديد
الرسم البياني المعرفي	الكائنات المُشار إليها من عدة سجلات تتلاقى في عقدة واحدة — فتصبح العلاقات قابلة للاستعلام

كيفية عمل عملية الحل (ذاكرة التطابق التام، والتضمينات، وعتبات التشابه) مشروحة في المعرّفات الدلالية.

التنقيب في أرشيفات تمتد لعقود

تجلس معظم الشركات على أرشيف لم يُنظَّم قط: محرّكات أقراص مشتركة للعقود والتقارير، وأوراق ممسوحة ضوئيًا، ومرفقات بريد إلكتروني، واجتماعات مسجّلة. هذا الأرشيف هو قاعدة بيانات — لكنه لم يُمنح صفوفًا وأعمدة قط. والجمع بين المرفقات (المستندات كمصدر للمعرفة)، والإثراء بالدُفعات (المعالجة المتوازية)، والمعرّفات الدلالية (إزالة التكرار عبر المجموعة الكاملة) يحوّله إلى قاعدة بيانات.

ملفات الأرشيف

إرفاق بالإثراء

المخطط كسؤال الاستخراج

سجلات منظمة مُتحقق منها

الهوية الدلالية وإزالة التكرار

قاعدة بياناتك

معالجة الدفعات على نطاق واسع — تُثرى الكيانات على التوازي مع تتبّع مباشر لتقدّم كل كيان، وتقديرات مسبقة للتكلفة، وإعادة محاولة انتقائية للقلة التي تفشل
استخراج محمي — يمنع التصنيف المسبق والتحقق من المخطط أن يلوّث مستندٌ مُصنَّف خطأً سِجِلّاتك بهراء واثق
الهوية المتقاربة — المورّد نفسه الذي يظهر في عقد لعام 2009 وفاتورة لعام 2024 يُحَلّ إلى المعرّف الدلالي نفسه، فينهار الأرشيف إلى بيانات رئيسية نظيفة
الخروج عبر الـ API — تُصدَّر النتائج بصيغة JSON مُتحقَّق منها أو تتدفق مباشرة إلى أنظمتك عبر واجهة REST API والموصّلات (n8n، Make، MCP)

راجع الإثراء بالدُفعات للاطلاع على سير العمل بالتفصيل.

ما وراء النص: المصادر متعددة الوسائط

لا توجد المعرفة المهيكلة في النصوص فقط. يقبل Entity Enricher الصيغ التي يحتويها أرشيفك فعليًا ويوجّه كل واحدة منها إلى نماذج قادرة على قراءتها.

مستندات PDF

مستندات كاملة بتخطيطها وجداولها وأشكالها — تُقرأ بشكل أصلي بواسطة النماذج القادرة على معالجة PDF

الصور

الصور والمستندات الممسوحة والرسوم البيانية ولقطات المنتجات — تُفسّرها نماذج الرؤية دون خطوة OCR منفصلة

الصوت

مكالمات واجتماعات وملاحظات صوتية مسجّلة — تسمعها مباشرةً النماذج القادرة على معالجة الصوت

المستندات المكتبية والنصوص

Word وExcel وPowerPoint وHTML وCSV وMarkdown — يُستخرج النص على جانب الخادم ويُدمج ضمن المحتوى

وضعا تسليم يجعلان هذا ممكنًا. في الوضع الثنائي، تُرسَل البايتات الأصلية إلى النموذج فلا يُفقد شيء في التحويل — تخطيط الجدول، وتفاصيل الصورة، وكلمات المتحدث. في وضع النص المضمّن، يُستخرَج النص مرة واحدة عند الرفع ويُضمَّن في كل مطالبة، وهو ما يعمل مع أي نموذج بغضّ النظر عن قدراته.

التوجيه المدرك للقدرات يعني أن الملف يصل فقط إلى النماذج القادرة فعلاً على معالجته — إذ يتم تحذيرك قبل بدء الإثراء، لا بعد فشله. التنسيقات والأوضاع مفصّلة في مرفقات المستندات.

مجالات الخبرة: استشارة المختص المناسب

ليست كل المعارف متساوية. يتطلب السؤال عن آليات الأدوية خبرة مختلفة عن السؤال عن هيكل الشركات. توجّه مجالات الخبرة خصائص المخطط إلى المتخصص المناسب داخل LLM، مما يُفعّل أنماط المعرفة ذات الصلة لكل مجال.

pharmaceutical

أسماء الأدوية، وآليات العمل، ودواعي الاستعمال، والحالة التنظيمية

business_classification

رموز الصناعة، أنواع الشركات، قطاعات السوق

geographic

المواقع والمناطق والمعلومات الخاصة بكل دولة

financial

الإيرادات، والقيمة السوقية، وجولات التمويل

temporal

التواريخ والفترات والأحداث التاريخية

regulatory

الموافقات، التراخيص، حالة الامتثال

عند استخدام استراتيجية الخبرات المتعددة، يحصل كل مجال على استدعاء LLM مركّز خاص به يتضمن خصائص المخطط ذات الصلة فقط، مما يُحسّن جودة المخرجات بشكل كبير.

ضوابط الجودة

التحقق والتصحيح الذاتي

قد ترتكب نماذج LLM أخطاء. لذلك يطبّق Entity Enricher طبقات متعددة من ضبط الجودة لاكتشاف الأخطاء وإصلاحها تلقائياً:

التحقق من النوع — يضمن مطابقة المخرجات لأنواع المخطّط (سلسلة نصية، رقم، قيمة منطقية، إلخ)
التحقق من الخبرة — يتحقق من أن جميع مجالات الخبرة معرَّفة وتحتوي على خصائص
التصحيح الذاتي — عند فشل التحقق، تُرسَل الأخطاء مرة أخرى إلى الـ LLM للتصحيح التلقائي (حتى 5 محاولات)
منطق الحفظ — تُستعاد القيم الأصلية للحقول المحفوظة بعد الإثراء، مما يضمن سلامة البيانات

مفاتيح البحث: ترسيخ الهوية أثناء الإثراء

تمنع مفاتيح البحث الـ LLM من الهلوسة حول الكيان الخاطئ. وهي تؤدي دورين:

مفاتيح البحث (الاسم، الموقع الإلكتروني) — معرّفات بحث تساعد الـ LLM في العثور على الكيان الصحيح
مفاتيح الدمج (product_name في المصفوفات) — مفاتيح إزالة التكرار لمطابقة عناصر المصفوفة عند دمج النتائج من نماذج متعددة

يؤكد مُوجّه الإثراء: ”أنت تُثري هذا الكيان المحدد المُعرَّف بمفاتيح البحث هذه.“

مفاتيح البحث والمعرّفات الدلالية وجهان للهوية: تساعد مفاتيح البحث الـ LLM على العثور على الكيان الصحيح أثناء الإثراء؛ بينما تمنحه المعرّفات الدلالية هوية دائمة تعتمد عليها أنظمتك بعد الإثراء.

التصنيف المسبق

قبل بدء الإثراء، يمكن لخطوة تصنيف تمهيدي اختيارية التحقق من أن الكيان يطابق فعليًا نوع المخطط. يمنع ذلك الهلوسة عندما لا تتطابق الكيانات — على سبيل المثال، إثراء «تيتان» مقابل مخطط «كوكب» بينما تيتان في الواقع قمر.

الوعي بالتكلفة

لاستدعاءات LLM تكاليف. يتتبّع Entity Enricher استهلاك الرموز، والتكلفة لكل مزوّد، والتكلفة لكل عملية إثراء، والإنفاق على مستوى المؤسسة. يتيح ذلك مراقبة الميزانية، ومقارنة المزوّدين (التكلفة مقابل الجودة)، واتخاذ قرارات التحسين مثل استخدام نماذج أرخص للحقول البسيطة — وهو ما يكتسب أهمية قصوى عند معالجة أرشيف يضم آلاف المستندات.

ملخّص

المكوّن	الدور المفاهيمي
المخطط	السؤال الذي تطرحه
مزوّدو LLM	وجهات نظر معرفية مختلفة
المرفقات	أرشيفك كمصدر معرفي (PDF، صورة، صوت، مستندات مكتبية)
مفاتيح البحث	مرتكزات هوية الكيان أثناء الإثراء
المعرّفات الدلالية	هوية مستقرة بعد الإثراء — العمود الفقري لنظام معلوماتك
مجالات الخبرة	التوجيه المتخصص
الاستراتيجيات	كيفية تنسيق استدعاءات LLM
معالجة الدفعات	إثراء متوازٍ على نطاق الأرشيف
متعدد اللغات	الحقيقة نفسها في كل لغة تعمل بها
التحقق	ضمان الجودة
الحفاظ	حماية سلامة البيانات

الخطوات التالية

تدفّق الإثراء

شرح تفصيلي خطوة بخطوة لمسار الإثراء

المعرّفات الدلالية

هوية كيان مستقرة لإزالة التكرار وقابلية التشغيل البيني

مرفقات المستندات

ملفات PDF والصور والصوت وملفات المكتب كمصادر للإثراء

الإثراء بالدفعات

معالجة متوازية للقوائم والأرشيفات

استراتيجيات الإثراء

قارن نهج التمرير الأحادي مقابل نهج مجالات الخبرة المتعددة

دمج متعدد النماذج

اكتشاف التعارضات وحلّها عبر النماذج