إثراء الكيانات هو عملية أخذ سجل بيانات شحيح -- اسم شركة، أو معرّف مركّب دوائي، أو عنوان عقار -- وتعزيزه بمعلومات منظمة ومفصّلة من مصادر خارجية. يوضّح هذا الدليل كيف يعمل إثراء الكيانات، ولماذا تحل الأساليب المدعومة بالذكاء الاصطناعي محل الأساليب التقليدية، وكيف يُنتج الإثراء متعدد النماذج نتائج أكثر دقة.
«الكيان» هو أي شيء في العالم الحقيقي تريد معرفة المزيد عنه: شركة، أو شخص، أو مركّب صيدلاني، أو كيان قانوني، أو ورقة بحثية، أو عقار. ويعني «الإثراء» سدّ الفجوات -- بأخذ ما تعرفه (مُعرّف الكيان) واكتشاف ما لا تعرفه (سماته وعلاقاته وبياناته الوصفية).
على سبيل المثال، انطلاقاً من الاسم "Novartis" فقط، قد تُعيد عملية الإثراء ما يلي: موقع المقر الرئيسي (بازل، سويسرا)، وعدد الموظفين (+105,000)، والمجالات العلاجية (الأورام، القلب والأوعية الدموية، المناعة)، والاستحواذات الأخيرة، وخط التجارب السريرية، والملفات التنظيمية عبر مختلف الولايات القضائية.
التحدّي الأساسي ليس مجرّد العثور على هذه المعلومات، بل هيكلتها. تُنتج أنظمة الإثراء مخرجات مُصنّفة النوع ومُتحقَّقًا منها يمكن للتطبيقات اللاحقة استهلاكها برمجيًا — ليست ملخّصات نصية حرّة، بل بيانات JSON مُهيكلة بحقول وأنواع وعلاقات محدّدة.
بحث في قاعدة بيانات مقابل مجموعات بيانات خاصة (Apollo وZoomInfo وClearbit). تستعلم من قاعدة بيانات مُعدّة مسبقًا وتحصل على أي حقول يوفّرها المزوّد.
تبحث نماذج اللغة الكبيرة عن الكيانات مستعينةً ببيانات تدريبها وقدراتها على الاستدلال، وتُعيد مخرجات منظّمة تتوافق مع المخطط الخاص بك.
لا يحلّ الإثراء المدعوم بالذكاء الاصطناعي محلّ البحث في قواعد البيانات في جميع حالات الاستخدام. عندما تحتاج إلى عناوين بريد إلكتروني أو أرقام هواتف مُتحقَّق منها، تظل قاعدة البيانات المُنسَّقة هي الأداة المناسبة. لكن عندما تحتاج إلى حقول مخصصة أو أنواع كيانات غير قياسية أو بيانات منظمة مُتحقَّق منها بشكل متبادل، يتفوّق الإثراء المدعوم بالذكاء الاصطناعي. تستخدم فرق كثيرة كلا الأسلوبين معًا.
للإثراء بنموذج واحد قيدٌ جوهري: فأنت تعتمد على معرفة ذكاء اصطناعي واحد واستدلاله في كل نقطة بيانات. تُدرَّب نماذج LLM المختلفة على بيانات مختلفة، ولها نقاط قوة مختلفة، وترتكب أخطاء مختلفة. فحقيقة يصيبها Claude قد يفوّتها GPT-4، والعكس صحيح.
يعالج الإثراء متعدد النماذج هذا الأمر بتشغيل عدة نماذج بالتوازي على الكيان والمخطط نفسه، ثم مقارنة مخرجاتها حقلًا بحقل. عندما تتفق جميع النماذج على قيمة ما، تكون الثقة عالية. وعندما تختلف، يكتشف النظام التعارض ويحلّه إما باستخدام قواعد حتمية (تصويت الأغلبية، الوسيط للأرقام) أو التحكيم عبر LLM باستدلال منظّم.
هذا النهج، الذي يسمّيه Entity Enricher الدمج متعدد النماذج، يُنتج نتائج أكثر دقة بشكل قابل للقياس من أي نموذج بمفرده. كما يوفّر مسار تدقيق — إذ يوثّق كل سجل مدموج النماذج التي اتفقت والتي اختلفت وكيفية حل التعارضات.
يتكوّن مسار الإثراء الحديث المدعوم بالذكاء الاصطناعي من أربع مراحل:
عرّف بنية المخرجات التي تريدها. ما الحقول، وما الأنواع، وما عمق التداخل، وما مجالات الخبرة. هذا هو "السؤال" الذي سيجيب عنه الإثراء.
تعرّف على إنشاء المخطط بالذكاء الاصطناعي →قدّم معرّفات الكيان — الأسماء أو المعرّفات أو البيانات الجزئية أو أي معلومات أخرى تساعد الذكاء الاصطناعي في البحث عن الكيان. يدعم وضع الدُفعة حتى 100 كيان دفعة واحدة.
تعرّف على معالجة الدُفعات →تُثري عدة نماذج ذكاء اصطناعي كل كيان بشكل مستقل وفقاً لمخططك. يتحقق التصنيف المبدئي من أنواع الكيانات. وتُنتج الموجّهات الخاصة بكل مجال خبرة نتائج متخصصة.
تعرّف على الدمج متعدد النماذج →تُحلّ مخرجات النماذج المتعارضة. تُصدَّر النتائج على هيئة JSON مهيكل أو ملف Excel متعدد الأوراق مع تقارير التعارضات ومنطق التحكيم.
عرض جميع الميزات →ينطبق إثراء الكيانات على أي مجال تحتاج فيه إلى معلومات منظمة حول كيانات من العالم الحقيقي. وفيما يلي بعض أكثر التطبيقات شيوعًا:
الحالة التنظيمية، والتجارب السريرية، والخصائص الجزيئية، وملفات السلامة.
جولات التمويل والقيمة السوقية ومؤشرات المخاطر وهياكل الشركات التابعة.
بيانات الاختصاص القضائي، وشهادات الامتثال، وحوكمة الشركات.
مقاييس الاستشهادات، ومؤشر h، والانتماءات المؤسسية، والمنهجية.
بيانات تقسيم المناطق، والتقييمات، والتركيبة السكانية للحي، وتاريخ التصاريح.
أي نوع كيان يمكنك تعريف مخطط له. المنصة غير مقيّدة بمجال محدد.
صُمّم Entity Enricher خصيصًا للإثراء متعدد النماذج القائم على المخطط. وعلى خلاف المنصات التقليدية التي توفّر مجموعات حقول ثابتة من قواعد بيانات خاصة، يتيح لك Entity Enricher تحديد بنية الإخراج الدقيقة التي تحتاجها، وتشغيل نماذج ذكاء اصطناعي متعددة للتحقق المتقاطع، ودمج النتائج مع حلّ التعارضات.
عرّف أي بنية إخراج بخصائص مُصنّفة الأنواع وكائنات متداخلة ومصفوفات ومراجع $ref.
شغّل نموذجين أو أكثر من نماذج LLM في آنٍ واحد. اكتشف التعارضات على مستوى الحقول. حلّها بالقواعد أو بتحكيم LLM.
الصق JSON، واحصل على مخطط مُتحقَّق منه مع مجالات الخبرة ومفاتيح البحث. تصحيح ذاتي.
أثرِ حتى 100 كيان بالتوازي مع تتبّع التقدّم في الوقت الفعلي والتصدير إلى Excel/JSON.
يُقسَّم المخطط حسب المجال لإجراء استدعاءات LLM متوازية متخصصة تنتج نتائج أعمق.
تحقق من أنواع الكيانات قبل الإثراء لمنع الهلوسة عند عدم تطابق الكيانات.
حدّد مخططك، واختر نماذجك، واحصل على بيانات كيانات منظمة في دقائق. لا اشتراكات ولا حقول ثابتة — فقط البيانات التي تحتاجها، متحقَّقًا منها بواسطة نماذج ذكاء اصطناعي متعددة.
ابدأ مجانًا