دمج متعدد النماذج - وثائق Entity Enricher

دمج متعدد النماذج

عند تشغيل الإثراء نفسه عبر نماذج ذكاء اصطناعي متعددة، يمكن لـ Entity Enricher دمج النتائج في مخرجات واحدة عالية الثقة. يكتشف الدمج التعارضات بين مخرجات النماذج ويحلّها باستخدام قواعد حتمية أو تحكيم مدعوم بالـ LLM.

مسار الدمج

مخرجات النموذج
نتيجة Claude
نتيجة GPT-4
نتيجة Gemini
اكتشاف التعارضات
قارن كل حقل
عبر جميع النماذج
الحل
دمج قائم على القواعد
أو
تحكيم LLM
النتيجة المدموجة
مخرجات واحدة مع
مسار تدقيق التعارضات

الخطوة 1: اكتشاف التعارضات

يقارن كاشف التعارضات كل حقل عبر جميع مخرجات النماذج. تمر الحقول التي تتفق عليها جميع النماذج دون تغيير. أما الحقول التي تختلف عليها النماذج فتُعلَّم كتعارضات تحتاج إلى حل.

قواعد المقارنة حسب نوع الحقل
النوعطريقة المقارنةمعنى التوافق
قيمة مفردةتطابق تام مُطبَّع (مُشذَّب، بأحرف صغيرة، مُقرَّب)جميع القيم متساوية بعد التسوية
متعدد اللغاتمقارنة لكل لغةتتطابق كل مفتاح لغة عبر النماذج
مصفوفةمقارنة مجموعات (مستقلة عن الترتيب)العناصر نفسها بصرف النظر عن الترتيب
كائنتكراري لكل خاصيةتتطابق جميع الخصائص المتداخلة
فارغ (Null)القيمة الفارغة (null) تساوي المفقودةيُعامَل كمكافئ
مثال: إثراء «Sanofi» بنموذجين
مخرجات Claude
revenue: 42.2
gmp_status: true
description: “Sanofi is a global...”
مخرجات GPT-4
revenue: 44.1
gmp_status: true
description: “Sanofi SA is a...”
النتيجة: gmp_status = agreed | revenue = conflict (42.2 مقابل 44.1) | description = conflict (نص مختلف)

الخطوة 2: حل التعارضات

تُحلّ التعارضات باستخدام إحدى طريقتين، تبعًا لما إذا كنت قد اخترت نموذج تحكيم في الشريط الجانبي.

الخيار أ

دمج قائم على القواعد

تُطبَّق قواعد حتمية بناءً على نوع بيانات كل حقل. لا حاجة لأي استدعاءات إضافية لـ LLM — الحل فوري ومجاني.

نوع الحقلقاعدةالمبرّر
سلسلة نصيةتصويت الأغلبية؛ وعند التعادل تُختار أطول قيمةعادةً ما يكون المزيد من التفاصيل أفضل
عددالقيمة الوسيطةقوي في مواجهة القيم الشاذة
قيمة منطقيةالأغلبية؛ وعند التعادل تفوز القيمة trueافتراضي متحفّظ
متعدد اللغاتتصويت الأغلبية لكل لغةتُحسم كل لغة على نحو مستقل
مصفوفةاتحاد جميع العناصرالحفاظ على جميع المعلومات
كائنتكراري لكل حقلتطبيق القواعد على الحقول المتداخلة
فارغة مقابل ذات قيمةتفضيل القيمة غير الفارغةالبيانات المفقودة أسوأ من أي قيمة

حاسم التعادل: عند تعادل الأصوات، تفوز القيمة الآتية من النموذج الأعلى سعرًا (كمؤشّر على القدرة)، يليها الترتيب الأبجدي لاسم النموذج.

الخيار ب

تحكيم LLM

عند اختيار نموذج تحكيم في الشريط الجانبي، تُرسَل التعارضات إلى LLM لحلّها بذكاء. يتلقى المُحكِّم سياق الكينونة، وأوصاف حقول المخطط، وجميع القيم المتعارضة، ثم يتخذ قرارات مُعلَّلة.

ما الذي يُرجعه المُحكِّم
القيمة المختارةالقيمة التي يعتبرها الأكثر دقة
النموذج المصدرمن أي نموذج جاءت القيمة المختارة
الاستدلاللماذا اختار تلك القيمة دون البدائل
الثقةمدى ثقته في القرار (عالية، متوسطة، منخفضة)

الحل البديل: إذا فشل نموذج التحكيم (انتهاء المهلة أو خطأ)، يعود النظام تلقائيًا إلى الدمج القائم على القواعد لتحصل دائمًا على نتيجة.

الخطوة 3: النتيجة المدموجة

بعد حل التعارضات، يبني النظام نتيجة مدمجة واحدة ويخزّنها بوصفها سجل “تحكيم” في قاعدة البيانات. تتضمن كل نتيجة مدمجة سجل تدقيق يتيح لك تتبّع كيفية حل كل تعارض.

سجل التدقيق (بيانات التحكيم الوصفية)

تتضمن كل نتيجة مدمجة بيانات وصفية توثّق عملية الدمج:

“method”: “rule_based” | “llm”
“source_record_ids”: [“uuid-1”, “uuid-2”]
“total_fields”: 23
“agreed_fields”: 18
“conflicted_fields”: 5
“decisions”: [{ path, chosen_value, rule_used, ... }]

ما تراه في الواجهة

بعد اكتمال الدمج، يعرض تبويب “المدمج” في لوحة النتائج ما يلي:

1
رأس الملخّص
يعرض طريقة الحل (قائمة على القواعد أو LLM)، وعددًا مثل ”18 متفق عليها / 5 محلولة / 23 حقلًا إجماليًا“.
2
JSON مدموج
الإخراج المنظم الكامل الذي يجمع القيم المتفق عليها والتعارضات المحلولة في مستند JSON واحد.
3
تقرير التعارضات
بطاقات قابلة للتوسيع لكل تعارض تعرض: مسار الحقل، وشارة طريقة الحل (تصويت الأغلبية، الوسيط، الاتحاد، إلخ)، وجميع قيم النماذج مع تمييز القيمة المختارة، ونص التبرير في حال استُخدم تحكيم LLM.

الدمج التلقائي في معالجة الدُّفعات

في الإثراء بالدُفعات، يحدث الدمج تلقائيًا عند اختيارك نموذجين أو أكثر. لا حاجة للنقر على ”دمج النتائج“ يدويًا — فبمجرد اكتمال جميع النماذج لكيان ما، يُجرى الدمج وتظهر النتيجة المدمجة إلى جانب مخرجات النماذج الفردية.

الدمج المتدفّق: أثناء الإثراء الفردي والدُّفعي معًا، يُبَثّ تقدّم الدمج عبر أحداث الخادم المُرسَلة (Server-Sent Events). ترى أحداث fusion_started وconflicts_detected وfusion_completed في الوقت الفعلي.

التحكيم القائم على القواعد مقابل تحكيم LLM: متى تستخدم كلًّا منهما

قائم على القواعد (مجاني وفوري)
  • بيانات واقعية/رقمية في الغالب حيث يعمل منطق التصويت جيدًا
  • المعالجة عالية الحجم أو معالجة الدُفعات حيث تكون التكلفة مهمة
  • مخططات بسيطة ذات تعارضات متوقعة قليلة
  • عندما تريد نتائج حتمية وقابلة للتكرار
تحكيم LLM (تكلفة إضافية)
  • المخططات المعقدة التي يكون فيها السياق مهمًا لحلّها
  • بيانات نصية (أوصاف، ملخصات) حيث يكون التصويت غير كافٍ
  • عندما تحتاج إلى قرارات قابلة للتفسير مصحوبة بمنطق التعليل
  • عمليات الإثراء عالية الأهمية حيث تستحق الدقة التكلفة الإضافية