منع الهلوسة - وثائق Entity Enricher

منع الهلوسة

عندما تُنتج نماذج الـ LLM بيانات مُهيكلة، يمكن أن تختلق حقائق تبدو معقولة. يستخدم Entity Enricher 8 طبقات دفاعية لضمان حصولك على بيانات دقيقة أو لا بيانات على الإطلاق — لا خيالًا يبدو واثقًا.

مشكلة الهلوسة المُهيكلة

في النص الحر، تكون الجملة المُهلوَسة غامضة بوضوح. أما في المخرجات المنظَّمة، فيبدو الحقل المُهلوَس مثل "founded_year": 1987 موثوقًا ويكاد يستحيل تمييزه عن قيمة صحيحة. وهناك ثلاثة عوامل تجعل ذلك خطيرًا بوجه خاص:

دقة زائفة

تبدو قيمة JSON المهلوَسة تمامًا مثل القيمة الحقيقية. لا تحفّظ، ولا "تقريبًا" — مجرد نقطة بيانات نظيفة وواثقة تصادف أنها خاطئة.

ضغط المخطط

تُجبر الحقول المطلوبة نموذج LLM على إنتاج قيمة حتى عندما لا تتوفر لديه أي معرفة. فيختلق النموذج بيانات بدلاً من ترك فجوة في البنية.

الانتشار الصامت

تتدفق البيانات المهيكلة مباشرة إلى قواعد البيانات والتحليلات والأتمتة. تنتشر أي قيمة خاطئة عبر المسارات دون مراجعة بشرية.

أنماط الهلوسة الشائعة

نمط	مثال	السبب
اختلاق واثق	`"ceo": "John Smith"`	يملأ LLM الحقل المطلوب باسم مقبول ظاهرياً
الالتباس الزمني	`"revenue": "$2.3B"`	حد بيانات التدريب أو الخلط بين الفترات
خلط الكيانات	سمات من الشركة A على الشركة B	أسماء متشابهة في بيانات تدريب متداخلة
قيم افتراضية معقولة	`"employees": 500`	يختار LLM رقماً «معقولاً» بدلاً من الاعتراف بعدم المعرفة
علاقات مُختلقة	`"subsidiary_of": "Alphabet"`	يستنتج LLM علاقة غير موجودة

8 طبقات دفاعية

لا يعتمد Entity Enricher على تقنية واحدة. بل يجمع بين 8 طبقات دفاع مستقلة، تستهدف كل منها نمط إخفاق مختلفًا. وإذا فاتت إحدى الطبقات رصد هلوسة، تلتقطها الطبقة التالية.

التصنيف المسبق

قبل بدء الإثراء، يُصنّف نموذج LLM سريع ما إذا كان الكيان يطابق نوع المخطط. يمنع ذلك هلوسة الكيان بالكامل من المصدر.

مثال: يُوسَم «Titan» عند قياسه مقابل مخطط «كوكب» بأنه قمر — وتتلقى نماذج الإثراء هذا السياق وتستخدم null للحقول الخاصة بالكواكب.

الحقول القابلة للإبطال والمطالبات المحافظة

توجّه جميع الاستراتيجيات نموذج LLM بما يلي: «كن دقيقًا ومتحفظًا — فضّل القيمة الفارغة على التخمين.» وتمنح حقول المخطط القابلة للإفراغ النموذجَ إذنًا صريحًا بأن يقول «لا أعرف.»

يعالج هذا مباشرةً ضغط المخطط — السبب الأول للهلوسة المُهيكلة.

تحديد نطاق مجال الخبرة

تُجمَّع خصائص المخطط حسب مجال الخبرة. لا يرى كل استدعاء LLM سوى الحقول ضمن مجاله، مع تعليمات بالتركيز حصرياً على ذلك المجال.

النطاق الأضيق يعني فرصة أقل للهلوسة. فالخبير المالي لا يخمّن أبداً بشأن البيانات التنظيمية.

التركيز على مفتاح البحث

يتم إبراز الخصائص المفتاحية (المعلَّمة is_key: true) في التوجيهات لتثبيت الـ LLM على المعلومات التعريفية قبل ملء الحقول الأخرى.

يؤسّس هذا النموذج على حقائق معروفة، مما يقلّل الانحراف نحو تفاصيل مُلفَّقة.

التحقق من المخطط والتصحيح الذاتي

تتحقق 8 قواعد تحقق من مخرجات LLM بحثًا عن عدم تطابق الأنواع والمراجع غير الصالحة والأخطاء البنيوية. يؤدي فشل التحقق إلى تشغيل ModelRetry — حيث تُرسَل الأخطاء مجددًا إلى LLM للتصحيح.

ما يصل إلى 6 محاولات تصحيح تلقائية ضمن تشغيل وكيل واحد. يُصحّح LLM أخطاءه بنفسه.

الحفاظ على المنطق

الحقول المُعلَّمة بـ preserve: true (المعرّفات، ورموز SKU، والطوابع الزمنية) تُستعاد إلى قيم إدخالها الأصلية بعد الإثراء. لا يمكن لـ LLM الكتابة فوق البيانات المرجعية الحقيقية.

الحقول المحمية: معرّفات الكيانات، ورموز النظام (EAN، SKU)، ومعرّفات الاستيراد، وطوابع وقت الإنشاء.

توافق متعدد النماذج

تشغيل الكيان نفسه عبر نموذجين مستقلين أو أكثر ومقارنة المخرجات حقلًا بحقل. ويُشار إلى الاختلافات باعتبارها هلوسات محتملة.

إذا قال Claude إن الإيرادات 2.3 مليار دولار وقال GPT-4 إنها 1.8 مليار دولار — فسيُكتشَف هذا التعارض ويُعرَض.

حلّ التعارضات والتحكيم

تُحَلّ التعارضات المكتشفة عبر تصويت قائم على القواعد (الأغلبية، الوسيط، الاتحاد) أو عبر محكّم LLM مخصّص يقيّم الدقة والاكتمال والاتساق.

يتضمّن كل قرار مفاضلة تبريره ومستوى ثقته — شفافية كاملة في كيفية حل التعارضات.