تسجيل نقاط اختبار الأداء المرجعي - توثيق Entity Enricher

تسجيل نقاط اختبار الأداء المرجعي

يحوّل التقييم الاختبار المرجعي من ”تفحّص JSON بالعين“ إلى رقم موضوعي. تُقيَّم نتيجة كل نموذج مقابل مرجع ذهبي — المخرج المتوقع — لينتج عن ذلك اكتمال وصحة ودرجة جودة إجمالية يمكنك الترتيب حسبها.

المرجع الذهبي

يحتاج التقييم إلى شيء يُقيَّم مقابله. يحمل كل سيناريو مخرجًا مرجعيًا: الإجابة الصحيحة لكيانه الثابت الوحيد. أنشئه بالتوليد باستخدام نماذج قوية (بحث ويب + مستند مصدر موثوق)، أو بلصق نتيجة معروفة الجودة، ثم تعديلها يدويًا — وضع عليها علامة مُتحقَّق منه بمجرد أن تثق بها. المرجع المُتحقَّق منه مطلوب لإجراء الاختبار المرجعي للسيناريو من الأساس، لذا يوجد دائمًا ما يُقيَّم مقابله. وإذا عدّلت المرجع لاحقًا — أو غيّرت إعداد تقييم السيناريو — فستُوسم النتائج الحالية بأنها قديمة حتى تعيد التقييم.

كيف تُقارَن القيم

المشكلة الأساسية: يمكن كتابة إجابتين صحيحتين بطريقتين مختلفتين. فالنموذج الذي يسمّي ممثلاً ”R. Downey Jr.“ بدلاً من ”Robert Downey Jr.“ ليس مخطئًا. لذا تُقارن كل حقل بسلّم متدرّج — الأرخص والأكثر يقينًا أولاً، مع التصعيد عند الحاجة فقط:

مطابقة تامة ومُطبَّعة

القيم المتطابقة تتوافق. وكذلك القيم التي تختلف فقط في حالة الأحرف أو المسافات المحيطة أو الدقة الرقمية ("Acme" = "ACME"، 4.0 = 4). مجانية وحتمية تمامًا.

تشابه التضمين

بالنسبة إلى النص، يُدمَج المرشّح والمرجع ويُقارَنان بتشابه جيب التمام. فوق العتبة يُعدّان متطابقين — لذا فإن تهجئة بديلة صالحة مثل "R. Downey Jr." مقابل "Robert Downey Jr." تُعدّ تطابقاً لا خطأ. أما التواريخ فهي الاستثناء: تُقارَن بوصفها قيماً تقويمية، لا بالتشابه أبداً، بحيث يكون التاريخ القريب لكن الخاطئ ("1972-03-14" مقابل "1972-03-24") عدم تطابق واضح بدلاً من جيب تمام مرتفع خادع. والقيم المنطقية كذلك إما مطابقة تماماً أو لا شيء.

حَكَم LLM

القيم التي يتعذّر الحسم فيها بالتشابه — جميع حقول النص الحر مثل الملخصات والأوصاف، وكل رقم غير مطابق — تُرسَل إلى نموذج حَكَم، يمنح درجة من 0 إلى 100 لمدى جودة التقاط الإجابة لمعنى المرجع. يكافئ الإجابة الصحيحة المصاغة بشكل مختلف أو أكثر إيجازاً، ويمنح الرقم درجة جزئية عندما يسمح الحقل بذلك (وزن جزيئي 273.37 مقابل 273.35، ونصف عمر 12 مقابل 15) بينما يُرسّبه حيث تكون الدقة مهمة (سنة إصدار 2020 مقابل 2023). بدون حَكَم، يعود النص الحر إلى درجة تشابه متصلة، ويكون الرقم غير المطابق مجرد عدم تطابق.

يتحكم إعداد الصرامة في عتبة التضمين: فالقيمة الأعلى تعني أن على قيمتين مكتوبتين بشكل مختلف أن تكونا أكثر تشابهًا لتُعدّا متطابقتين. تُضبط الصرامة، ونموذج الحَكَم الاختياري، ونموذج التضمين جميعها على السيناريو — لا يُختار ذلك في كل مرة تُقيّم فيها — بحيث يُقيَّم كل نموذج بالطريقة نفسها وتبقى الدرجات قابلة للمقارنة.

تقييم المصفوفات (قوائم العناصر)

القوائم — طاقم عمل فيلم، أو الآثار الجانبية لدواء — هي المكان الذي تختلف فيه النماذج أكثر ما يكون: فقد يجد نموذج صغير 4 ممثلين بينما يجد نموذج قوي 15. الترتيب لا يهم، ويجب أن يفوز إيجاد عددٍ أكبر من العناصر الصحيحة. لذا تُقيَّم المصفوفات بوصفها مجموعة، وليس موضعًا بموضع:

يُطابَق كل عنصر مرشّح بعنصر مرجعي وفق التدرّج ذاته المُتّبع مع الحقول، من الأرخص أولاً: عبر حقله المفتاحي، ثم عبر النص المتطابق، ثم عبر تشابه التضمين، وأخيراً — لما تبقّى من العناصر المُعاد صياغتها — عبر استدعاء واحد لـ محاذاة المجموعات بواسطة LLM يصفّ العناصر المتبقية دفعة واحدة (فقط عندما يتضمّن السيناريو مُحكّماً).
الاستدعاء يكافئ التغطية — إيجاد 15 من 15 أفضل من 4 من 15.
الدقة تعاقب العناصر المختلقة — يؤدي إضافة ممثل مُهلوَس إلى خفض النتيجة.
F1 يجمع بين الاثنين، ويُسجَّل كل زوج متطابق حقلًا حقلًا، لذا فإن ‘الفاعل الصحيح بدور خاطئ’ يظل محسوبًا ضدك.

وسّع صفّ نتيجة لترى بدقة العناصر التي تمت مطابقتها أو فُقدت أو كانت هلوسة.

قراءة الدرجة

الرقم الواحد يخفي الكثير، لذا تحمل كل نتيجة درجات فرعية:

الاكتمال — هل ملأ النموذج ما ملأه المرجع؟ (البيانات الناقصة تضر بهذا)
الصحة — مما ملأه، كم منه صحيح؟
الهلوسة — كم اختلق مما لا يدعمه المرجع؟
الإجمالي — مزيج مرجَّح، مع ترجيح أكبر لحقول المعرّف (المفتاح).

يعرض الصف القابل للتوسيع التفصيل على مستوى كل حقل: المرشّح مقابل المرجع، وأيّ درجة من السلّم حسمت النتيجة، ودرجة التشابه حيثما كان ذلك مناسبًا.

عندما يُشغّل السيناريو نموذجًا أكثر من مرة (تكرارات)، تُقيَّم كل عملية تشغيل على حدة ويعرض الصف متوسط الجودة بالإضافة إلى نطاق الاتساق (أدنى–أعلى قيم عمليات التشغيل) — بحيث يسهل رصد النموذج الصحيح في المتوسط لكنه متذبذب. والمُخرَج المرئي هو عملية التشغيل ذات الجودة الوسيطة.

التكلفة وما يتم تشغيله

التقييم هو مرور منفصل على النتائج المحفوظة مسبقًا — فهو لا يعيد الإثراء أبدًا، ولذلك لا يدفع مجددًا مقابل النماذج قيد الاختبار. لكنه يُضمّن النص لمقارنة القيم (ويُشغّل المُحكِّم، إن وُجد في السيناريو)، وهو ما يخصم أرصدة بناءً على الاستخدام. يحدث ذلك تلقائيًا في نهاية كل تشغيل، ومجددًا كلما أعدت التقييم. وإذا لم يكن لدى مؤسستك نموذج تضمين مُهيّأ (ولم يحدد السيناريو تجاوزًا)، فسيظل التقييم يعمل لكنه يعود إلى المطابقة التامة فقط (فتُحتسب حينها التهجئات البديلة على أنها عدم تطابق)، ويوضّح ذلك.

أين تجده

في إدارة النماذج ← المعايير المرجعية، اضبط مرجعًا وتحقق منه في محرر السيناريوهات (واختر هناك نموذج التحكيم، ونموذج التضمين، ومستوى الصرامة). من ذلك الحين، يقيّم كل تشغيل تلقائيًا نتائجه الناجحة — إذ يُملأ عمود الجودة القابل للفرز دون أي خطوة إضافية. استخدم إعادة تقييم النتائج (زر الترويسة أو قائمة ···) لإعادة التقييم بعد تعديل المرجع أو إعدادات التقييم.

معايير أداء النماذج

السيناريوهات والتشغيلات المحفوظة، والمخرجات والتكلفة جنباً إلى جنب.

المعرّفات الدلالية

دقة التضمين التي تشغّل أيضًا مطابقة التكافؤ.