الإثراء والدمج متعدد النماذج - Entity Enricher

الإثراء والدمج متعدد النماذج

شغّل عدة نماذج ذكاء اصطناعي بالتوازي على الكيان نفسه، واكتشف التعارضات على مستوى الحقول بين مخرجاتها، وادمج النتائج في سجل واحد عالي الثقة. هذا هو العامل المميّز الأساسي لـ Entity Enricher: بدلًا من الوثوق بنموذج LLM واحد، تتحقق تقاطعيًا عبر عدة مزوّدين لأقصى دقة في البيانات.

كيف يعمل الإثراء متعدد النماذج

المُدخل

بيانات الكيان + المخطط

Claude

يُثري بشكل مستقل

GPT-4

يُثري بشكل مستقل

Gemini

يُثري بشكل مستقل

اكتشاف التعارضات

مقارنة حقلًا بحقل عبر جميع مخرجات النماذج

الخيار أ

دمج قائم على القواعد

تصويت الأغلبية، الوسيط، الاتحاد

الخيار ب

تحكيم LLM

الذكاء الاصطناعي يحلّها بالاستدلال

المخرجات المدموجة

سجل واحد عالي الثقة مع مسار تدقيق

تنفيذ النماذج المتوازي

عند اختيار نماذج متعددة لمهمة إثراء، يُرسل Entity Enricher بيانات الكينونة والمخطط نفسها إلى كل نموذج في آنٍ واحد. يعمل كل نموذج بشكل مستقل دون معرفة بمخرجات النماذج الأخرى، مما يضمن نقاط بيانات مستقلة حقًا.

يدعم النظام أي مزيج من المزوّدين — Anthropic Claude أو OpenAI GPT-4 أو Google Gemini أو Mistral أو النماذج المُستضافة ذاتيًا عبر Ollama. يضمن تحديد معدّل الطلبات لكل مزوّد بقاءك ضمن حدود API لكل مزوّد مع تعظيم الإنتاجية.

يُظهر بث SSE الآني التقدّم مع اكتمال كل نموذج، بما في ذلك التقدّم لكل مجال خبرة عند استخدام استراتيجية تعدّد الخبرات. يمكنك رؤية نتائج جزئية قبل انتهاء جميع النماذج.

كشف التعارض الواعي بالنوع

بعد اكتمال جميع النماذج، يقارن محرّك اكتشاف التعارضات مخرجاتها حقلًا بحقل. المقارنة واعية بالنوع — تستخدم أنواع الحقول المختلفة قواعد مقارنة مختلفة:

نوع الحقلطريقة المقارنةقاعدة التوافق
سلسلة نصية / قيمة قياسيةمطابقة تامة (مُطبَّعة)يجب أن تتساوى جميع القيم بعد تسوية حالة الأحرف والمسافات البيضاء
عددمطابقة رقمية تامةيجب أن تكون جميع القيم أرقامًا متطابقة
قيمة منطقيةمطابقة تامةيجب أن تتفق جميع النماذج على صواب/خطأ
متعدد اللغاتمقارنة لكل لغةتُقارَن كل مفتاح لغة على نحو مستقل
مصفوفةمقارنة مجموعات (يُتجاهل الترتيب)العناصر نفسها بصرف النظر عن الترتيب
كائنتكراري لكل خاصيةيجب أن تتطابق جميع الحقول المتداخلة
القيم الفارغة (null)null == مفقودتُعامل القيمة الفارغة (null) والغائبة على أنهما متكافئتان

طرق حلّ التعارضات

دمج قائم على القواعد

حلّ حتمي باستخدام قواعد التصويت. سريع وقابل للتنبؤ ولا يتطلّب أي استدعاء إضافي لـ LLM.

  • السلاسل النصية: تصويت الأغلبية. تُحسم التعادلات بأطول قيمة (فالتفصيل الأكثر أفضل).
  • الأرقام: القيمة الوسيطة. متينة في مواجهة القيم الشاذة من أي نموذج منفرد.
  • القيم المنطقية: تصويت الأغلبية. تفوز القيمة True عند التعادل (نهج متحفّظ).
  • المصفوفات: اتحاد جميع العناصر. يحافظ على جميع المعلومات.
  • الكائنات: تطبيق تكراري للقواعد أعلاه على كل حقل.
  • القيمة الفارغة: تُفضَّل القيم غير الفارغة. البيانات المفقودة أسوأ من أي قيمة.

تحكيم LLM

يراجع نموذج التحكيم كل تعارض مع سياق الكيان وأوصاف الحقول، ثم يتخذ قرارًا مُنظّمًا.

  • التعليل: يتضمن كل قرار شرحًا باللغة الطبيعية لسبب اختيار قيمة معينة.
  • الثقة: درجة ثقة عالية أو متوسطة أو منخفضة لكل قرار.
  • القيمة المُختارة: يختار المُحكِّم من مخرجات النماذج المتاحة أو يُركّب إجابة أفضل.
  • الحل البديل: إذا فشل التحكيم، يعود النظام تلقائيًا إلى الدمج القائم على القواعد.

مسار تدقيق كامل

يتضمن كل سجل مدمج بيانات وصفية للتحكيم مع سلسلة مصدر كاملة:

تُخزَّن هذه البيانات الوصفية إلى جانب السجل المدموج وتُصدَّر في ورقة التعارضات بصيغة Excel، مما يجعلها ملائمة لسير عمل الامتثال حيث يهمّ مصدر القرار.

متى يكون الإثراء متعدد النماذج أكثر أهمية

البيانات عالية الأهمية

العناية الواجبة المالية، وملفات السلامة الدوائية، وفحص الامتثال حيث تترتب على الأخطاء عواقب جوهرية.

حقائق متنازَع عليها

الكيانات ذات المعلومات المتضاربة عبر المصادر -- مبالغ التمويل أو تواريخ التأسيس أو الأوضاع التنظيمية التي تختلف المصادر في الإبلاغ عنها.

فجوات التغطية

عندما لا يمتلك نموذج واحد معرفة كاملة. تُدرَّب نماذج الـ LLM المختلفة على بيانات مختلفة، لذا فإن تشغيل نماذج متعددة يسدّ الفجوات.

متطلبات الثقة

عندما يحتاج المستهلكون النهائيون إلى درجات ثقة ومصدر لكل نقطة بيانات، وليس القيم النهائية فقط.

جرّب الإثراء متعدد النماذج

حدّد نموذجين أو أكثر، وشغّلها بالتوازي، وشاهد كيف يحلّ الدمج التعارضات. دون التزام شهري -- استخدم مفاتيح API الخاصة بك وادفع لكل رمز.

ابدأ مجانًا