معايير أداء النماذج - وثائق Entity Enricher

معايير أداء النماذج

تتيح لك سيناريوهات اختبار الأداء المرجعي مقارنة نماذج الـ LLM على مهمة إثراء حقيقية وقابلة للتكرار — على قدم المساواة — مع التقاط مخرجات كل نموذج وتكلفته الإجمالية لتختار النموذج المناسب للمهمة.

لماذا القياس المرجعي؟

تختلف النماذج اختلافًا كبيرًا في الدقة وموثوقية المخرجات المُهيكلة والسعر. بدلًا من التخمين، يُشغّل سيناريو المعيار المرجعي نفس المخطط والكيان عبر العديد من النماذج دفعة واحدة ويُسجّل ما أنتجه كل منها وتكلفته. تقارن بناءً على الأدلة، ثم تعتمد النموذج الأرخص الذي يفي بمعيار الجودة لديك.

كيف يعمل

تعريف سيناريو

سيناريو المعيار المرجعي هو اختبار إثراء محفوظ وقابل لإعادة الاستخدام: مخطط، ومُدخل كيان ثابت (مفاتيح بحث أو JSON خام)، واستراتيجية إثراء، ولغات، ومفاتيح تبديل مخطط الاستجابة / المخرجات المنظَّمة الصارمة، وأي مرفقات. كما يحتوي على المرجع الذهبي الخاص به وكيفية تقييم النتائج مقابله (نموذج حَكَم اختياري، ونموذج تضمين، وعتبة صرامة). عرّفه مرة واحدة وأعد استخدامه عبر كل نموذج ترغب في مقارنته.

شغّله عبر النماذج

بمجرد أن يمتلك السيناريو مرجعًا موثّقًا، شغّله مقابل النماذج النشطة لمزوّد واحد أو كل نموذج نشط في العرض. يُثرى كل نموذج على نحو مستقل — دون دمج — فتحصل على نتيجة نظيفة جنبًا إلى جنب لكل نموذج. يُبثّ التقدّم مباشرةً، وتُقيَّم كل نتيجة ناجحة تلقائيًا مقابل المرجع عند انتهاء التشغيل.

قارن المُخرجات والتكلفة

يُحفَظ كل تشغيل مع مخرجاته المنظّمة، وحالة نجاحه، وأعداد الرموز، ووقت المعالجة، وإجمالي التكلفة المُحاسَب عليها. وسّع أي صف لفحص مخرجات JSON أو الانتقال إلى سجل الإثراء الأساسي.

أعد التشغيل للتحديث

تؤدي إعادة تشغيل سيناريو على النموذج نفسه إلى الكتابة فوقنتيجته السابقة، لذا يعكس الجدول دائمًا أحدث تشغيل. عدّل إعدادات سيناريو فتُوسَم النتائج الأقدم بأنها قديمة حتى تعيد تشغيلها. اضبط عدد التشغيلات لكل نموذج على 2 أو 3 فيخضع كل نموذج للقياس المعياري بهذا العدد من المرات — يحتفظ الجدول بـمتوسط التكلفة والجودة والسرعة إضافةً إلى تشتّت الاتساق (تتباين النماذج من تشغيل لآخر)، بما يقارب ذلك المضاعف من الأرصدة.

قراءة النتائج

جدول النتائج مُصمّم للمقارنة. يبرز شريط ملخّص في الأعلى معدّل النجاح والأرخص والأسرع من النماذج التي نجحت. كل عمود — النموذج، الحالة، الاستراتيجية، التكلفة، الرموز، والوقت — قابل للفرز، فنقرة واحدة تُرتّب النماذج حسب السعر أو زمن الاستجابة. صفِّ حسب اسم النموذج أو الحالة أو الاستراتيجية لتضييق العرض، ووسّع أي صف لقراءة المخرجات المُهيكلة كاملة أو لفتح سجل الإثراء الأساسي.

التكرار: إعادة المحاولة والتعطيل

قياس الأداء المرجعي عملية تكرارية. حدِّد الصفوف باستخدام مربعات الاختيار (اضغط مع زر Shift لتحديد نطاق)، ثم استخدم قائمة ··· للتصرف في مجموعة فرعية دون إعادة تشغيل كل شيء:

إعادة محاولة المحدد / الفاشل / القديم — أعد تشغيل تلك النماذج فقط؛ تحل النتائج محل السابقة في مكانها. يمتد الفاشل والقديم عمدًا عبر مجموعة النتائج الكاملة، بحيث لا يخفي أي مرشِّح نشط هدف إعادة المحاولة أبدًا.
تعطيل الفاشلة / المُحدَّدة — أوقِف النماذج لكي تتوقف عن الظهور في أدوات اختيار الإثراء. مفيد لتشذيب النماذج التي تفشل باستمرار مع مخططك، أو التي لم تبلغ مخرجاتها المستوى الذي تريده.

حدِّد مرجعًا ذهبيًا (مطلوب لإجراء الاختبار المرجعي)

يحمل كل سيناريو نتيجة مرجعية — أي المخرجات المتوقعة لكيانه — ولا يمكن قياس أداء السيناريو إلا بعد التحقق من هذه النتيجة المرجعية. وحتى ذلك الحين لن يظهر في أي قائمة تشغيل. والمرجع هو الأساس للحكم على الجودة: إلى أي مدى يقترب كل نموذج، حقلاً بحقل، و(بالنسبة للقوائم مثل طاقم فيلم) كم عدد العناصر الصحيحة التي عثر عليها فعلاً. أنت تحدّده — إلى جانب نموذج الحكم، ونموذج التضمين، وصرامة التقييم المستخدمة في التقدير مقابله — مباشرةً في محرّر السيناريو.

أنشئه بطريقتين. ولّده: أرفق مستندًا يحتوي على القيم الصحيحة (ورقة بيانات، صفحة رسمية)، وفعّل البحث على الويب، وشغّل بضعة نماذج قوية — فهي تستخرج الإجابة من مصدرك لا من الذاكرة، ليكون الناتج مستندًا إلى الحقيقة لا إلى التخمين. أو الصق نتيجة معروفة الصحة لديك بالفعل. في كلتا الحالتين تراجع الـ JSON، وتصحّح ما يلزم، وتضع عليه علامة مُتحقَّق منه — إقرار صريح بأن هذه هي الإجابة الذهبية.

بما أن المرجع مؤسَّس على وقائع وخضع لتحقق بشري مرة واحدة، فإنه يعمل أيضًا كمقياس موثوق تعيد استخدامه عبر كل نموذج وكل تشغيل مستقبلي.

أين تجده

توجد المعايير المرجعية في إدارة النماذج ← المعايير المرجعية (متاحة لمالكي المؤسسة والمشرفين). أنشئ السيناريوهات وأدرها هناك، أو ابدأ تشغيلاً من أي من أربعة مواضع: زر قياس أداء النماذج في شريط الأدوات (كل النماذج النشطة المعروضة)، أو إجراء قياس أداء النماذج على أي صف مزوّد (النماذج النشطة لذلك المزوّد)، أو قائمة المعيار المرجعي المنسدلة التي تظهر عند تحديد النماذج في لوحة النماذج (النماذج المحددة)، أو إجراء قياس أداء النموذج على أي صف نموذج مفرد.

التكلفة والفوترة

تُجري عمليات اختبار الأداء المرجعي استدعاءات LLM حقيقية وتخصم أرصدة بناءً على الاستخدام الفعلي، تمامًا كأي إثراء عادي. يخبرك مربع حوار التأكيد بعدد النماذج التي أنت على وشك تشغيلها قبل أن يُصرف أي رصيد. تعرض كل نتيجة محفوظة تكلفتها المُحتسبة، فيغدو اختبار الأداء المرجعي أيضًا أداة لمقارنة التكاليف.

تسجيل نقاط اختبار الأداء المرجعي

قيّم النتائج مقابل مرجع ذهبي — التكافؤ، ومقياس F1 للمصفوفات، والدرجات الفرعية.

النماذج والتسعير

إدارة النماذج ومزامنة الأسعار وإجراء فحوص السلامة.

استراتيجيات الإثراء

التمريرة الواحدة مقابل المجالات الخبيرة مقابل الخبرات المتعددة.

تحسين التكلفة

أبقِ الإثراء منخفض التكلفة عبر التخزين المؤقت والتحكم في الوصول.

لوحة التكلفة

حلّل الإنفاق باستخدام السلاسل الزمنية والتفصيلات لكل نموذج.