المفاهيم الأساسية - وثائق Entity Enricher

المفاهيم الأساسية

يحوّل Entity Enricher نوعين من المعرفة إلى بيانات منظّمة ومُتحقّق منها: ما تعرفه نماذج اللغة الكبيرة بالفعل، وما يقبع دون قراءة في أرشيفاتك الخاصة — مستندات PDF، والصور، والتسجيلات الصوتية، وملفات المكاتب. ويحصل كل كائن مُستخرَج على هوية دلالية ثابتة، بحيث تتراكم عمليات الإثراء لتشكّل نظام معلومات متماسكًا بدلًا من كومة من النتائج المتفرّقة.

الفكرة الأساسية

تخيّل نماذج LLM بوصفها معرفة بشرية مُقطّرة — مليارات المستندات وقواعد البيانات وصفحات الويب مضغوطة في شبكات عصبية قابلة للاستعلام. يوفّر Entity Enricher الواجهة اللازمة لاستخراج هذه المعرفة بصيغة مُهيكلة وموثوقة تلائم نموذج بياناتك. ولأن النماذج الحديثة يمكنها أيضًا قراءة ملفات PDF ورؤية الصور وسماع الصوت، فإن الواجهة نفسها تستخرج البنية من محتواك الخاص: العقود والتقارير والمسوحات والتسجيلات التي جمعتها شركتك على مدى سنوات.

بياناتك وأرشيفك
سجلات جزئية
المعرّفات الخام
ملفات PDF والمسوحات الضوئية
الصور والصوت
المخطط + LLM
“ماذا أريد أن أعرف؟”
نظام المعلومات الخاص بك
ملفات تعريف مهيكلة
التصنيفات
الحقول متعددة اللغات
معرّفات دلالية مستقرة

مصدران للمعرفة

تعتمد كل عملية إثراء على أحد هذين المصدرين أو كليهما. وهما يكملان بعضهما البعض: يوفّر النموذج المعرفة العامة والاستدلال؛ بينما توفّر مستنداتك الحقائق التي لا توجد إلا داخل مؤسستك.

1. المعرفة التدريبية للنموذج

حقائق عامة عن الشركات والأدوية والأماكن والمنتجات واللوائح — أي شيء تعلّمه النموذج أثناء التدريب. امنحه معرّفًا (اسمًا أو موقعًا إلكترونيًا) ومخططًا، وسيملأ الباقي: القطاع وسنة التأسيس والمقر الرئيسي وآليات العمل. لا حاجة إلى أي مستند.

2. أرشيفاتك غير المنظّمة

المعرفة التي لم تدخل قطّ إلى قاعدة بيانات: العقود، والفواتير، وتقارير الفحص، والنماذج الممسوحة ضوئيًا، وصور المنتجات، والمكالمات المسجّلة. أرفقها بعملية إثراء ويستخرج النموذج حقول مخطّطك مباشرةً من محتواها — دون أي تعرّف ضوئي على الحروف أو نسخ صوتي أو نسخ ولصق يدوي.

راجع مرفقات المستندات للاطلاع على الصيغ المدعومة وأوضاع التسليم.

الركائز الثلاث

1. المخطط: سؤالك إلى قاعدة المعرفة

المخطط ليس مجرد بنية بيانات — إنه سؤال مُصاغ رسمياً تطرحه على المعرفة الجماعية للبشرية، أو على مستند محدد. عندما تُعرّف مخططاً بخصائص مثل companyName وindustry وheadquarters، فأنت في جوهر الأمر تسأل: «بالنظر إلى معرّف شركة، أخبرني باسمها، وبأي قطاع تعمل، وأين يقع مقرها الرئيسي.»

مفهوم المخططالغرض
الخصائصالحقائق المحدّدة التي تريد استخراجها
الأنواعالتنسيق الذي تتوقّعه (سلسلة نصية، رقم، كائن، مصفوفة)
مجالات الخبرةأي متخصص ينبغي أن يجيب (صيدلاني، مالي، جغرافي)
مفاتيح البحثالمعرّفات التي تساعد في تحديد موقع الكيان في قاعدة المعرفة
المعرّف الدلاليهوية ثابتة على نطاق المؤسسة بحيث يُتعرَّف على الكائن الواقعي نفسه عبر عمليات الإثراء وأنظمتك الأخرى
الحفاظالحقول التي تُمرَّر دون تغيير من إدخالك
متعدد اللغاتحقول تُقدَّم بكل لغة تعمل بها — ميزة أساسية، لا خطوة ترجمة مُلحقة

2. نموذج LLM: معرفة قابلة للاستعلام، وقارئ متعدد الوسائط

تمثّل نماذج اللغة الكبيرة نوعًا جديدًا من قواعد المعرفة. فخلافًا لقواعد البيانات التقليدية التي تُعيد تطابقات دقيقة مع السجلات المخزّنة، تفهم نماذج LLM السياق، وتستنتج من البيانات الناقصة، وتعمّم انطلاقًا من الأنماط. ولم تعد مقتصرة على النص فحسب: فالنماذج القادرة على الرؤية تقرأ الصور والصفحات الممسوحة ضوئيًا، والنماذج القادرة على معالجة ملفات PDF تستوعب المستندات كاملةً، والنماذج القادرة على معالجة الصوت تستمع إلى التسجيلات.

يتعامل Entity Enricher مع نماذج LLM المتعددة بوصفها منظورات معرفية مختلفة. فيجلب كل مزوّد نقاط قوته الخاصة — فيتفوّق Claude في الاستدلال الدقيق، ويمتلك GPT-4 معرفة واسعة، ويقدّم Gemini عمقًا متعدد اللغات، وتحافظ نماذج Ollama المحلية على خصوصية بياناتك.

يتيح لك تشغيل الإثراء نفسه عبر عدة مزوّدين مقارنة الإجابات لتقييم الثقة، وتجميع التوافق من عدة خبراء، وموازنة التكلفة مقابل الجودة. تعرّف على المزيد في الإثراء متعدد النماذج.

3. الإثراء: استخراج المعرفة المنظّمة

الإثراء هو عملية تحديد الكيان باستخدام مفاتيح البحث، واسترجاع المعرفة ذات الصلة من LLM وأي مستندات مرفقة، وهيكلة الاستجابة وفقًا لمخططك، والتحقّق من تطابق المُخرَجات مع الأنواع المتوقعة، والحفاظ على بياناتك الأصلية حيثما يُحدَّد، وأخيرًا حسم الهوية — بمنح كل كائن معرّفه الدلالي الثابت.

المُدخل
{ "name": "Novartis", "website": "novartis.com" }
استخراج المفاتيح → استعلام LLM → التحقق → تحديد الهوية
الإخراج
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

من عمليات الإثراء إلى نظام معلومات

كل عملية إثراء مستقلة. اسأل مرتين وقد يعود الشيء نفسه من العالم الواقعي موصوفاً بشكل مختلف — «Acme Inc.» في يوم، و«Acme Incorporated» في اليوم التالي؛ وأثرٌ جانبي لدواء بوصفه «Headache» أو «Céphalée» أو «Cephalalgia» حسب اللغة أو النموذج. ولكي تبني فعلاً على البيانات المُثراة، تحتاج إلى معرّف ثابت للكيان نفسه.

المعرّف الدلالي هو معرّف على نطاق المؤسسة يسنده Entity Enricher إلى كائن انطلاقًا من حقوله الأساسية، ويُطابَق بحسب المعنى لا التهجئة الدقيقة. يُحلّ الكيان نفسه إلى المعرّف نفسه عبر عمليات الإثراء والنماذج واللغات والزمن. ويُسنَد تلقائيًا بعد تشغيل النموذج — ولا يخترعه LLM أبدًا — ويمكن أن يوجد على أي كائن: الكيان بأكمله، أو كائن متداخل، أو كل عنصر في قائمة.

عملية الإثراء رقم 1
“Acme Inc.”
المعرّف الدلالي نفسه
cpt_abc123
التشغيل رقم 2 — لاحقًا، بنموذج أو لغة مختلفة
“Acme Incorporated”

هذا ما يحوّل تدفقًا من عمليات الإثراء إلى نظام معلومات يمكنك تنميته والاستعلام عنه:

استخدامما الذي يتيحه
مفتاح الدمجمفتاح ثابت لمطابقة السجلات المُثراة مع مستودعك أو نظام إدارة علاقات العملاء أو نظام البيانات الرئيسية لديك
إزالة التكراردمج النسخ شبه المكررة الناتجة عبر الدفعات أو النماذج أو سنوات من المستندات في هوية واحدة
التوفيقأعِد تمرير معرّف دلالي معروف لتُرفَق الحقائق الجديدة بالكيان الذي تتتبعه بالفعل، بدلاً من إنشاء كيان جديد
الرسم البياني المعرفيالكائنات المُشار إليها من عدة سجلات تتلاقى في عقدة واحدة — فتصبح العلاقات قابلة للاستعلام

كيفية عمل عملية الحل (ذاكرة التطابق التام، والتضمينات، وعتبات التشابه) مشروحة في المعرّفات الدلالية.

التنقيب في أرشيفات تمتد لعقود

تجلس معظم الشركات على أرشيف لم يُنظَّم قط: محرّكات أقراص مشتركة للعقود والتقارير، وأوراق ممسوحة ضوئيًا، ومرفقات بريد إلكتروني، واجتماعات مسجّلة. هذا الأرشيف هو قاعدة بيانات — لكنه لم يُمنح صفوفًا وأعمدة قط. والجمع بين المرفقات (المستندات كمصدر للمعرفة)، والإثراء بالدُفعات (المعالجة المتوازية)، والمعرّفات الدلالية (إزالة التكرار عبر المجموعة الكاملة) يحوّله إلى قاعدة بيانات.

ملفات الأرشيف
إرفاق بالإثراء
المخطط كسؤال الاستخراج
سجلات منظمة مُتحقق منها
الهوية الدلالية وإزالة التكرار
قاعدة بياناتك

راجع الإثراء بالدُفعات للاطلاع على سير العمل بالتفصيل.

ما وراء النص: المصادر متعددة الوسائط

لا توجد المعرفة المهيكلة في النصوص فقط. يقبل Entity Enricher الصيغ التي يحتويها أرشيفك فعليًا ويوجّه كل واحدة منها إلى نماذج قادرة على قراءتها.

مستندات PDF
مستندات كاملة بتخطيطها وجداولها وأشكالها — تُقرأ بشكل أصلي بواسطة النماذج القادرة على معالجة PDF
الصور
الصور والمستندات الممسوحة والرسوم البيانية ولقطات المنتجات — تُفسّرها نماذج الرؤية دون خطوة OCR منفصلة
الصوت
مكالمات واجتماعات وملاحظات صوتية مسجّلة — تسمعها مباشرةً النماذج القادرة على معالجة الصوت
المستندات المكتبية والنصوص
Word وExcel وPowerPoint وHTML وCSV وMarkdown — يُستخرج النص على جانب الخادم ويُدمج ضمن المحتوى

وضعا تسليم يجعلان هذا ممكنًا. في الوضع الثنائي، تُرسَل البايتات الأصلية إلى النموذج فلا يُفقد شيء في التحويل — تخطيط الجدول، وتفاصيل الصورة، وكلمات المتحدث. في وضع النص المضمّن، يُستخرَج النص مرة واحدة عند الرفع ويُضمَّن في كل مطالبة، وهو ما يعمل مع أي نموذج بغضّ النظر عن قدراته.

التوجيه المدرك للقدرات يعني أن الملف يصل فقط إلى النماذج القادرة فعلاً على معالجته — إذ يتم تحذيرك قبل بدء الإثراء، لا بعد فشله. التنسيقات والأوضاع مفصّلة في مرفقات المستندات.

مجالات الخبرة: استشارة المختص المناسب

ليست كل المعارف متساوية. يتطلب السؤال عن آليات الأدوية خبرة مختلفة عن السؤال عن هيكل الشركات. توجّه مجالات الخبرة خصائص المخطط إلى المتخصص المناسب داخل LLM، مما يُفعّل أنماط المعرفة ذات الصلة لكل مجال.

pharmaceutical
أسماء الأدوية، وآليات العمل، ودواعي الاستعمال، والحالة التنظيمية
business_classification
رموز الصناعة، أنواع الشركات، قطاعات السوق
geographic
المواقع والمناطق والمعلومات الخاصة بكل دولة
financial
الإيرادات، والقيمة السوقية، وجولات التمويل
temporal
التواريخ والفترات والأحداث التاريخية
regulatory
الموافقات، التراخيص، حالة الامتثال

عند استخدام استراتيجية الخبرات المتعددة، يحصل كل مجال على استدعاء LLM مركّز خاص به يتضمن خصائص المخطط ذات الصلة فقط، مما يُحسّن جودة المخرجات بشكل كبير.

ضوابط الجودة

التحقق والتصحيح الذاتي

قد ترتكب نماذج LLM أخطاء. لذلك يطبّق Entity Enricher طبقات متعددة من ضبط الجودة لاكتشاف الأخطاء وإصلاحها تلقائياً:

  1. التحقق من النوع — يضمن مطابقة المخرجات لأنواع المخطّط (سلسلة نصية، رقم، قيمة منطقية، إلخ)
  2. التحقق من الخبرة — يتحقق من أن جميع مجالات الخبرة معرَّفة وتحتوي على خصائص
  3. التصحيح الذاتي — عند فشل التحقق، تُرسَل الأخطاء مرة أخرى إلى الـ LLM للتصحيح التلقائي (حتى 5 محاولات)
  4. منطق الحفظ — تُستعاد القيم الأصلية للحقول المحفوظة بعد الإثراء، مما يضمن سلامة البيانات

مفاتيح البحث: ترسيخ الهوية أثناء الإثراء

تمنع مفاتيح البحث الـ LLM من الهلوسة حول الكيان الخاطئ. وهي تؤدي دورين:

  • مفاتيح البحث (الاسم، الموقع الإلكتروني) — معرّفات بحث تساعد الـ LLM في العثور على الكيان الصحيح
  • مفاتيح الدمج (product_name في المصفوفات) — مفاتيح إزالة التكرار لمطابقة عناصر المصفوفة عند دمج النتائج من نماذج متعددة

يؤكد مُوجّه الإثراء: ”أنت تُثري هذا الكيان المحدد المُعرَّف بمفاتيح البحث هذه.“

مفاتيح البحث والمعرّفات الدلالية وجهان للهوية: تساعد مفاتيح البحث الـ LLM على العثور على الكيان الصحيح أثناء الإثراء؛ بينما تمنحه المعرّفات الدلالية هوية دائمة تعتمد عليها أنظمتك بعد الإثراء.

التصنيف المسبق

قبل بدء الإثراء، يمكن لخطوة تصنيف تمهيدي اختيارية التحقق من أن الكيان يطابق فعليًا نوع المخطط. يمنع ذلك الهلوسة عندما لا تتطابق الكيانات — على سبيل المثال، إثراء «تيتان» مقابل مخطط «كوكب» بينما تيتان في الواقع قمر.

الوعي بالتكلفة

لاستدعاءات LLM تكاليف. يتتبّع Entity Enricher استهلاك الرموز، والتكلفة لكل مزوّد، والتكلفة لكل عملية إثراء، والإنفاق على مستوى المؤسسة. يتيح ذلك مراقبة الميزانية، ومقارنة المزوّدين (التكلفة مقابل الجودة)، واتخاذ قرارات التحسين مثل استخدام نماذج أرخص للحقول البسيطة — وهو ما يكتسب أهمية قصوى عند معالجة أرشيف يضم آلاف المستندات.

ملخّص

المكوّنالدور المفاهيمي
المخططالسؤال الذي تطرحه
مزوّدو LLMوجهات نظر معرفية مختلفة
المرفقاتأرشيفك كمصدر معرفي (PDF، صورة، صوت، مستندات مكتبية)
مفاتيح البحثمرتكزات هوية الكيان أثناء الإثراء
المعرّفات الدلاليةهوية مستقرة بعد الإثراء — العمود الفقري لنظام معلوماتك
مجالات الخبرةالتوجيه المتخصص
الاستراتيجياتكيفية تنسيق استدعاءات LLM
معالجة الدفعاتإثراء متوازٍ على نطاق الأرشيف
متعدد اللغاتالحقيقة نفسها في كل لغة تعمل بها
التحققضمان الجودة
الحفاظحماية سلامة البيانات

الخطوات التالية