يحوّل Entity Enricher نوعين من المعرفة إلى بيانات منظّمة ومُتحقّق منها: ما تعرفه نماذج اللغة الكبيرة بالفعل، وما يقبع دون قراءة في أرشيفاتك الخاصة — مستندات PDF، والصور، والتسجيلات الصوتية، وملفات المكاتب. ويحصل كل كائن مُستخرَج على هوية دلالية ثابتة، بحيث تتراكم عمليات الإثراء لتشكّل نظام معلومات متماسكًا بدلًا من كومة من النتائج المتفرّقة.
تخيّل نماذج LLM بوصفها معرفة بشرية مُقطّرة — مليارات المستندات وقواعد البيانات وصفحات الويب مضغوطة في شبكات عصبية قابلة للاستعلام. يوفّر Entity Enricher الواجهة اللازمة لاستخراج هذه المعرفة بصيغة مُهيكلة وموثوقة تلائم نموذج بياناتك. ولأن النماذج الحديثة يمكنها أيضًا قراءة ملفات PDF ورؤية الصور وسماع الصوت، فإن الواجهة نفسها تستخرج البنية من محتواك الخاص: العقود والتقارير والمسوحات والتسجيلات التي جمعتها شركتك على مدى سنوات.
تعتمد كل عملية إثراء على أحد هذين المصدرين أو كليهما. وهما يكملان بعضهما البعض: يوفّر النموذج المعرفة العامة والاستدلال؛ بينما توفّر مستنداتك الحقائق التي لا توجد إلا داخل مؤسستك.
حقائق عامة عن الشركات والأدوية والأماكن والمنتجات واللوائح — أي شيء تعلّمه النموذج أثناء التدريب. امنحه معرّفًا (اسمًا أو موقعًا إلكترونيًا) ومخططًا، وسيملأ الباقي: القطاع وسنة التأسيس والمقر الرئيسي وآليات العمل. لا حاجة إلى أي مستند.
المعرفة التي لم تدخل قطّ إلى قاعدة بيانات: العقود، والفواتير، وتقارير الفحص، والنماذج الممسوحة ضوئيًا، وصور المنتجات، والمكالمات المسجّلة. أرفقها بعملية إثراء ويستخرج النموذج حقول مخطّطك مباشرةً من محتواها — دون أي تعرّف ضوئي على الحروف أو نسخ صوتي أو نسخ ولصق يدوي.
راجع مرفقات المستندات للاطلاع على الصيغ المدعومة وأوضاع التسليم.
المخطط ليس مجرد بنية بيانات — إنه سؤال مُصاغ رسمياً تطرحه على المعرفة الجماعية للبشرية، أو على مستند محدد. عندما تُعرّف مخططاً بخصائص مثل companyName وindustry وheadquarters، فأنت في جوهر الأمر تسأل: «بالنظر إلى معرّف شركة، أخبرني باسمها، وبأي قطاع تعمل، وأين يقع مقرها الرئيسي.»
| مفهوم المخطط | الغرض |
|---|---|
| الخصائص | الحقائق المحدّدة التي تريد استخراجها |
| الأنواع | التنسيق الذي تتوقّعه (سلسلة نصية، رقم، كائن، مصفوفة) |
| مجالات الخبرة | أي متخصص ينبغي أن يجيب (صيدلاني، مالي، جغرافي) |
| مفاتيح البحث | المعرّفات التي تساعد في تحديد موقع الكيان في قاعدة المعرفة |
| المعرّف الدلالي | هوية ثابتة على نطاق المؤسسة بحيث يُتعرَّف على الكائن الواقعي نفسه عبر عمليات الإثراء وأنظمتك الأخرى |
| الحفاظ | الحقول التي تُمرَّر دون تغيير من إدخالك |
| متعدد اللغات | حقول تُقدَّم بكل لغة تعمل بها — ميزة أساسية، لا خطوة ترجمة مُلحقة |
تمثّل نماذج اللغة الكبيرة نوعًا جديدًا من قواعد المعرفة. فخلافًا لقواعد البيانات التقليدية التي تُعيد تطابقات دقيقة مع السجلات المخزّنة، تفهم نماذج LLM السياق، وتستنتج من البيانات الناقصة، وتعمّم انطلاقًا من الأنماط. ولم تعد مقتصرة على النص فحسب: فالنماذج القادرة على الرؤية تقرأ الصور والصفحات الممسوحة ضوئيًا، والنماذج القادرة على معالجة ملفات PDF تستوعب المستندات كاملةً، والنماذج القادرة على معالجة الصوت تستمع إلى التسجيلات.
يتعامل Entity Enricher مع نماذج LLM المتعددة بوصفها منظورات معرفية مختلفة. فيجلب كل مزوّد نقاط قوته الخاصة — فيتفوّق Claude في الاستدلال الدقيق، ويمتلك GPT-4 معرفة واسعة، ويقدّم Gemini عمقًا متعدد اللغات، وتحافظ نماذج Ollama المحلية على خصوصية بياناتك.
يتيح لك تشغيل الإثراء نفسه عبر عدة مزوّدين مقارنة الإجابات لتقييم الثقة، وتجميع التوافق من عدة خبراء، وموازنة التكلفة مقابل الجودة. تعرّف على المزيد في الإثراء متعدد النماذج.
الإثراء هو عملية تحديد الكيان باستخدام مفاتيح البحث، واسترجاع المعرفة ذات الصلة من LLM وأي مستندات مرفقة، وهيكلة الاستجابة وفقًا لمخططك، والتحقّق من تطابق المُخرَجات مع الأنواع المتوقعة، والحفاظ على بياناتك الأصلية حيثما يُحدَّد، وأخيرًا حسم الهوية — بمنح كل كائن معرّفه الدلالي الثابت.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }كل عملية إثراء مستقلة. اسأل مرتين وقد يعود الشيء نفسه من العالم الواقعي موصوفاً بشكل مختلف — «Acme Inc.» في يوم، و«Acme Incorporated» في اليوم التالي؛ وأثرٌ جانبي لدواء بوصفه «Headache» أو «Céphalée» أو «Cephalalgia» حسب اللغة أو النموذج. ولكي تبني فعلاً على البيانات المُثراة، تحتاج إلى معرّف ثابت للكيان نفسه.
المعرّف الدلالي هو معرّف على نطاق المؤسسة يسنده Entity Enricher إلى كائن انطلاقًا من حقوله الأساسية، ويُطابَق بحسب المعنى لا التهجئة الدقيقة. يُحلّ الكيان نفسه إلى المعرّف نفسه عبر عمليات الإثراء والنماذج واللغات والزمن. ويُسنَد تلقائيًا بعد تشغيل النموذج — ولا يخترعه LLM أبدًا — ويمكن أن يوجد على أي كائن: الكيان بأكمله، أو كائن متداخل، أو كل عنصر في قائمة.
cpt_abc123هذا ما يحوّل تدفقًا من عمليات الإثراء إلى نظام معلومات يمكنك تنميته والاستعلام عنه:
| استخدام | ما الذي يتيحه |
|---|---|
| مفتاح الدمج | مفتاح ثابت لمطابقة السجلات المُثراة مع مستودعك أو نظام إدارة علاقات العملاء أو نظام البيانات الرئيسية لديك |
| إزالة التكرار | دمج النسخ شبه المكررة الناتجة عبر الدفعات أو النماذج أو سنوات من المستندات في هوية واحدة |
| التوفيق | أعِد تمرير معرّف دلالي معروف لتُرفَق الحقائق الجديدة بالكيان الذي تتتبعه بالفعل، بدلاً من إنشاء كيان جديد |
| الرسم البياني المعرفي | الكائنات المُشار إليها من عدة سجلات تتلاقى في عقدة واحدة — فتصبح العلاقات قابلة للاستعلام |
كيفية عمل عملية الحل (ذاكرة التطابق التام، والتضمينات، وعتبات التشابه) مشروحة في المعرّفات الدلالية.
تجلس معظم الشركات على أرشيف لم يُنظَّم قط: محرّكات أقراص مشتركة للعقود والتقارير، وأوراق ممسوحة ضوئيًا، ومرفقات بريد إلكتروني، واجتماعات مسجّلة. هذا الأرشيف هو قاعدة بيانات — لكنه لم يُمنح صفوفًا وأعمدة قط. والجمع بين المرفقات (المستندات كمصدر للمعرفة)، والإثراء بالدُفعات (المعالجة المتوازية)، والمعرّفات الدلالية (إزالة التكرار عبر المجموعة الكاملة) يحوّله إلى قاعدة بيانات.
راجع الإثراء بالدُفعات للاطلاع على سير العمل بالتفصيل.
لا توجد المعرفة المهيكلة في النصوص فقط. يقبل Entity Enricher الصيغ التي يحتويها أرشيفك فعليًا ويوجّه كل واحدة منها إلى نماذج قادرة على قراءتها.
وضعا تسليم يجعلان هذا ممكنًا. في الوضع الثنائي، تُرسَل البايتات الأصلية إلى النموذج فلا يُفقد شيء في التحويل — تخطيط الجدول، وتفاصيل الصورة، وكلمات المتحدث. في وضع النص المضمّن، يُستخرَج النص مرة واحدة عند الرفع ويُضمَّن في كل مطالبة، وهو ما يعمل مع أي نموذج بغضّ النظر عن قدراته.
التوجيه المدرك للقدرات يعني أن الملف يصل فقط إلى النماذج القادرة فعلاً على معالجته — إذ يتم تحذيرك قبل بدء الإثراء، لا بعد فشله. التنسيقات والأوضاع مفصّلة في مرفقات المستندات.
ليست كل المعارف متساوية. يتطلب السؤال عن آليات الأدوية خبرة مختلفة عن السؤال عن هيكل الشركات. توجّه مجالات الخبرة خصائص المخطط إلى المتخصص المناسب داخل LLM، مما يُفعّل أنماط المعرفة ذات الصلة لكل مجال.
عند استخدام استراتيجية الخبرات المتعددة، يحصل كل مجال على استدعاء LLM مركّز خاص به يتضمن خصائص المخطط ذات الصلة فقط، مما يُحسّن جودة المخرجات بشكل كبير.
قد ترتكب نماذج LLM أخطاء. لذلك يطبّق Entity Enricher طبقات متعددة من ضبط الجودة لاكتشاف الأخطاء وإصلاحها تلقائياً:
تمنع مفاتيح البحث الـ LLM من الهلوسة حول الكيان الخاطئ. وهي تؤدي دورين:
يؤكد مُوجّه الإثراء: ”أنت تُثري هذا الكيان المحدد المُعرَّف بمفاتيح البحث هذه.“
مفاتيح البحث والمعرّفات الدلالية وجهان للهوية: تساعد مفاتيح البحث الـ LLM على العثور على الكيان الصحيح أثناء الإثراء؛ بينما تمنحه المعرّفات الدلالية هوية دائمة تعتمد عليها أنظمتك بعد الإثراء.
قبل بدء الإثراء، يمكن لخطوة تصنيف تمهيدي اختيارية التحقق من أن الكيان يطابق فعليًا نوع المخطط. يمنع ذلك الهلوسة عندما لا تتطابق الكيانات — على سبيل المثال، إثراء «تيتان» مقابل مخطط «كوكب» بينما تيتان في الواقع قمر.
لاستدعاءات LLM تكاليف. يتتبّع Entity Enricher استهلاك الرموز، والتكلفة لكل مزوّد، والتكلفة لكل عملية إثراء، والإنفاق على مستوى المؤسسة. يتيح ذلك مراقبة الميزانية، ومقارنة المزوّدين (التكلفة مقابل الجودة)، واتخاذ قرارات التحسين مثل استخدام نماذج أرخص للحقول البسيطة — وهو ما يكتسب أهمية قصوى عند معالجة أرشيف يضم آلاف المستندات.
| المكوّن | الدور المفاهيمي |
|---|---|
| المخطط | السؤال الذي تطرحه |
| مزوّدو LLM | وجهات نظر معرفية مختلفة |
| المرفقات | أرشيفك كمصدر معرفي (PDF، صورة، صوت، مستندات مكتبية) |
| مفاتيح البحث | مرتكزات هوية الكيان أثناء الإثراء |
| المعرّفات الدلالية | هوية مستقرة بعد الإثراء — العمود الفقري لنظام معلوماتك |
| مجالات الخبرة | التوجيه المتخصص |
| الاستراتيجيات | كيفية تنسيق استدعاءات LLM |
| معالجة الدفعات | إثراء متوازٍ على نطاق الأرشيف |
| متعدد اللغات | الحقيقة نفسها في كل لغة تعمل بها |
| التحقق | ضمان الجودة |
| الحفاظ | حماية سلامة البيانات |