تدفّق الإثراء - توثيق Entity Enricher

تدفّق الإثراء

شرح تفصيلي خطوة بخطوة لكيفية معالجة Entity Enricher لكيان واحد — من الإدخال مروراً بالتصنيف والتنفيذ المتوازي للنماذج، وصولاً إلى المخرجات المُهيكلة.

المسار في لمحة

المُدخل

JSON الكيان
+ المخطط

التصنيف

اختياري
فحص النوع

النماذج المتوازية

Claude

مالي
تنظيمي
عام

GPT-4

مالي
تنظيمي
عام

تحقّق

فحص النوع
تصحيح ذاتي

الإخراج

مهيكل
JSON لكل نموذج

الخطوة 1: تهيئة الإثراء

افتح صفحة محرّر المخطط وأعدّ عملية الإثراء. يرشدك مُوجّه سير العمل عبر مراحل خط الأنابيب: بيانات العيّنة، والمخطط، والإثراء، والنتائج.

لوحة المخطط (يسار)

الصق عيّنة JSON لإنشاء مخطط تلقائيًا، ثم استكشف شجرة الخصائص التفاعلية. حرّر الخصائص، وأضف مجالات خبرة، وحدّد الحقول كمفاتيح بحث أو محفوظة.

لوحة الإثراء (يمين)

قم بتهيئة خيارات الإثراء (الاستراتيجية، النماذج، اللغات، التصنيف، إضافةً إلى مخطط الاستجابة ومفاتيح التبديل للمخرجات المهيكلة الصارمة) واملأ مفاتيح البحث عن الكيان (الاسم، الموقع الإلكتروني، الدولة، إلخ) لتحديد الكيان.

لوحة النتائج

يعرض التقدّم والنتائج لحظيًا لكل نموذج. وعند استخدام نماذج متعددة، يظهر زر ”دمج النتائج“ من أجل الدمج.

الخطوة 2: التصنيف التمهيدي (اختياري)

إذا اخترت نموذج تصنيف، فسيُجرى أولًا استدعاء LLM سريع ومنخفض التكلفة للتحقق من مطابقة الكيان لنوع المخطط. وهذا يمنع إهدار الرموز على الإثراء عندما لا يتطابق الكيان. اقرأ المزيد في وثائق التصنيف.

غير معطِّل: إذا فشل التصنيف لأي سبب، يستمر الإثراء بشكل طبيعي. التصنيف استشاري بحت — فهو يضيف سياقًا إلى موجّهات الإثراء لكنه لا يعطّل خط المعالجة أبدًا.

الخطوة 3: تنفيذ الاستراتيجية

يعالج كل نموذج محدد الكيان باستخدام الاستراتيجية التي اخترتها. عند تحديد عدة نماذج، تعمل بالتوازي عبر المزوّدين (يعمل Claude وGPT-4 في آنٍ واحد) بينما تعمل النماذج من المزوّد نفسه بالتتابع لاحترام حدود المعدل.

مثال على الخبرات المتعددة (3 مجالات)

تقسيم المخطط حسب الخبرة

تُجمَّع الخصائص حسب مجال خبرتها: الحقول المالية، والحقول التنظيمية، والحقول العامة.

تشغيل استدعاءات LLM متوازية

تحصل كل خبرة على موجّهها المركّز الخاص المتضمّن خصائص المخطط ذات الصلة فقط. وتعمل جميعها في آنٍ واحد.

دمج النتائج تدريجيًا

مع اكتمال كل مجال خبرة، يُدمج ناتجه في النتيجة المتراكمة. ترى النتائج الجزئية في الوقت الفعلي.

تطبيق منطق الحفظ

تُستعاد القيم الأصلية للحقول المميّزة بـ 'preserve'، مما يضمن بقاء بيانات الإدخال سليمة.

الخطوة 4: التحقق والتصحيح الذاتي

يُتحقّق من كل استجابة LLM مقابل مخططك في الوقت الفعلي. وعندما لا يتطابق الناتج مع الأنواع أو القيود المتوقّعة، يرسل النظام تلقائياً الأخطاء إلى الـ LLM لتصحيحها.

ما الذي يُصحَّح تلقائيًا:

سلسلة نصية بدلًا من رقم

يتحوّل "42.2" إلى 42.2

كائنات مفهرسة كمصفوفات

{"0": "a", "1": "b"} يصبح ["a", "b"]

قيم null نصية

يتحوّل "null" أو "None" إلى null فعلية

حقول مطلوبة مفقودة

يُعاد إرسال الخطأ، ويملأها LLM

ما يصل إلى 5 محاولات إعادة تلقائية لكل استدعاء LLM. تتضمن كل إعادة خطأ التحقق المحدد حتى يعرف LLM بالضبط ما يجب إصلاحه.

فرض المخرجات عند المصدر

يطلب مفتاحا تبديل اختياريان من المزوّد تقييد المخرجات قبل عودتها، بحيث تحتاج استجابات أقل إلى التصحيح من الأساس. ولا ينطبق كلاهما إلا على النماذج التي تدعمهما؛ ويظل كل شيء يعود إلى حلقة التحقق وإعادة المحاولة الموضحة أعلاه.

مخطط الاستجابة

يرسل مخططك عبر قناة مخطط الاستجابة الأصلية للمزوّد بحيث يُفرَض تنسيق JSON من جانب الخادم. مُعطَّل افتراضيًا — وإلا فإن النماذج القادرة تستخدم قناة استدعاء الأدوات.

مخرجات مهيكلة صارمة

يقيّد فك التشفير وفق المخطط (بلا انحراف) على أي قناة مُهيكلة تُستخدَم. مُفعَّل افتراضيًا؛ وتتجاهله بهدوء النماذج التي لا يمكنها فرضه.

الخطوة 5: البث في الوقت الفعلي

يستخدم Entity Enricher أحداث الخادم المُرسَلة (SSE) لبثّ التقدّم في الوقت الفعلي. فلا حاجة لانتظار اكتمال جميع النماذج — إذ تظهر النتائج تدريجيًا كلما انتهى كل مجال خبرة أو نموذج.

الجدول الزمني للأحداث (مثال بنموذجين وثلاثة مجالات خبرة)

0.0sstartedتبدأ المهمة، نموذجان في قائمة الانتظار

0.1sclassification_startedيبدأ الفحص المسبق

0.8sclassification_completedتم تأكيد الكيان كـ "مطابقة" (95%)

0.9smodel_startedيبدأ Claude و GPT-4 بالتوازي

1.2sexpertise_completedClaude: اكتمل الجانب المالي، وتم بث نتيجة جزئية

1.5sexpertise_completedClaude: اكتمل الجانب العام، وتم تحديث النتيجة

1.8sexpertise_completedClaude: اكتمل التنظيمي، النتيجة الكاملة جاهزة

1.9smodel_completedأنهى Claude بمخرجات مُهيكلة كاملة

2.5smodel_completedأنهى GPT-4 بمخرجات منظمة كاملة

2.5scompletedاكتملت جميع النماذج، ويُغلَق البثّ

الخطوة 6: مراجعة النتائج

يحصل كل نموذج على لوحة نتائج خاصة به تعرض ناتج JSON المنظّم، وشارات تقدّم لكل خبرة، واستهلاك الرموز، والتكلفة، ووقت المعالجة. وعند استخدام استراتيجية الخبرات المتعددة، تتحدّث شارات الخبرة في الوقت الفعلي كلما اكتمل كل مجال.

ما تراه لكل نموذج:

شارة الحالة — بالانتظار، أو قيد التشغيل، أو ناجحة، أو فاشلة، أو جزئية
شارات الخبرة — حبوب ملونة تُظهر التقدم لكل مجال (أزرق = قيد التشغيل، أخضر = مكتمل، أحمر = فاشل)
JSON التدريجي — تُحدَّث المخرجات بعد اكتمال كل مجال خبرة
المقاييس — وقت المعالجة، عدد الرموز، التكلفة بالدولار الأمريكي
سجل التقدم — إدخالات مؤرَّخة زمنيًا لكل حدث

التعامل مع النجاح الجزئي

عند استخدام استراتيجية الخبرات المتعددة، قد تفشل بعض الخبرات بينما تنجح أخرى. وبدلًا من التخلص من كل شيء، يُعيد Entity Enricher المخرجات المدمجة من الخبرات الناجحة بحالة ”جزئية“. ويمكنك عندئذٍ إعادة محاولة الخبرات الفاشلة فقط دون إعادة تشغيل الإثراء بأكمله.

مثال: إذا نجح مجالا خبرة من أصل 3، فستحصل على مخرجات منظمة تغطي المجالات الناجحة. ويمكن إعادة محاولة مجال الخبرة الفاشل، وستُدمَج نتائجه في المخرجات الموجودة.

ماذا يحدث بعد ذلك؟

بعد اكتمال الإثراء، تُحفظ نتائجك في صفحة السجلات للرجوع إليها لاحقًا. إذا استخدمت نماذج متعددة، يمكنك دمج النتائج باستخدام الدمج متعدد النماذج.

الاستراتيجيات

التمريرة الواحدة مقابل الخبرات المتعددة

التصنيف

التحقق المسبق من نوع الكيان

الدمج

دمج النتائج من نماذج متعددة