تحسين التكلفة والتخزين المؤقت للمُوجّهات - وثائق Entity Enricher

تحسين التكلفة

مع الإثراء باستخدام LLM، تكون الفاتورة هي الرموز (tokens). صُمِّم Entity Enricher لإرسال أقل عدد ممكن من الرموز المفوترة دون التضحية بالدقة — بقيادة التخزين المؤقت للموجّهات، ومدعومًا بتحديد نطاق المخطط، والتحكم الذكي، وتقليل عمليات إعادة المحاولة المهدرة. يحدث معظم ذلك تلقائيًا؛ ولا يتطلب أي شيء هنا إعدادًا إضافيًا.

أين تذهب التكلفة

تدفع كل عملية إثراء مقابل رموز الإدخال (طلبك، والمخطط، وأي مستندات مرفقة)، ورموز الإخراج (النتيجة المنظّمة)، وكذلك — إن كانت مُفعّلة — استعلامات البحث على الويب. وعادةً ما يكون الجزء الأكبر والأكثر تكراراً هو الإدخال: إذ يُعاد إرسال التعليمات النظامية نفسها، ووصف المخطط، والمستندات المصدرية في كل استدعاء. إن تخزين هذا الإدخال المشترك مؤقتاً هو أكبر عامل مؤثر بمفرده، ولذلك يأتي أولاً.

رموز الإدخال

المُوجّه + المخطط + المرفقات. كبير ومتكرر بشدة عبر الاستدعاءات — الهدف الأمثل للتخزين المؤقت وتحديد النطاق.

رموز الإخراج

النتيجة المُهيكلة. تظل موجزة بسؤال كل نموذج عن الحقول التي يملكها فعليًا فقط.

الإنفاق المهدر

محاولات إعادة فاشلة، وتضارب في حدود المعدل، وإثراء الكيان الخاطئ. يُزال مسبقًا بدلًا من دفع ثمنه.

التخزين المؤقت للمُوجّه

عند تشغيل إثراء متعدد مجالات الخبرة، فإنه يُجري عدة استدعاءات LLM للكيان نفسه — استدعاء واحد لكل مجال خبرة. وتتشارك كل هذه الاستدعاءات السياق الافتتاحي نفسه: تعليمات النظام العامة وأي مستندات نصية مضمّنة أرفقتها. يُبقي Entity Enricher هذه البادئة المشتركة متطابقة بايتًا ببايت عبر الاستدعاءات ويضعها كقابلة للتخزين المؤقت، بحيث يخزّنها المزوّد مرة واحدة ويعيد قراءتها في كل استدعاء لاحق بنحو عُشر سعر الإدخال المعتاد.

كيف يغيّر توفّر البيانات في ذاكرة التخزين المؤقت الفاتورة

بدون تخزين مؤقت

يعيد كل استدعاء من الاستدعاءات الـ N إرسال السياق المشترك الكامل بسعر الإدخال الكامل. فوجود خمس خبرات يعني دفع ثمن تلك الكتلة المشتركة الكبيرة خمس مرات.

مع التخزين المؤقت

تُكتب الكتلة المشتركة إلى ذاكرة التخزين المؤقت مرة واحدة، ثم تُقرأ في المكالمات الأربع الأخرى بنحو 10% من سعر الإدخال. وتزداد الوفورات مع كل خبرة ولغة ومستند مرفق إضافي.

تهيئة التخزين المؤقت

لا يمكن قراءة ذاكرة التخزين المؤقت للمزوّد إلا بعد انتهاء أول طلب يكتب فيها. فلو انطلقت كل نداءات مجال الخبرة دفعة واحدة، لما وجد أيٌّ منها ذاكرة مؤقتة جاهزة، ولكتب كلٌّ منها نسخته الخاصة على نحو متكرر. لذا عند انطباق التخزين المؤقت، يُنفَّذ النداء الأول بمفرده، ويُتاح وقت قصير لانتشار الذاكرة المؤقتة، وعندئذ فقط تُطلَق بقية النداءات بالتوازي — فيقرأ كلٌّ منها الذاكرة المؤقتة الجاهزة بدلًا من تحمّل كلفة إعادة كتابتها.

يعمل عبر المزوّدين والمرفقات

تخزّن نماذج Anthropic التعليمات المشتركة مؤقتًا بشكل صريح؛ وتُخزّن ملفات PDF والصور المرفقة مؤقتًا في مكانها؛ ويستفيد المزودون الذين يدعمون التخزين المؤقت التلقائي للبادئة (OpenAI وxAI وDeepSeek وغيرهم) من البادئة نفسها المتطابقة بايتًا ببايت. ويؤتي التخزين المؤقت ثماره أكثر ما يكون عندما يكون الإدخال كبيرًا — مجالات خبرة عديدة، أو لغات متعددة، أو مستندات مرفقة.

لا تدفع إلا مقابل ما لم يُخزَّن مؤقتًا

تُراعي محاسبة التكلفة التخزين المؤقت: تُفوتَر الرموز المميّزة للإدخال المخزَّنة مؤقتًا بسعر قراءة التخزين المؤقت للنموذج (جزء من سعر الإدخال)، ولا تُفوتَر بالسعر الكامل إلا الرموز الجديدة فعليًا. وتظهر هذه الوفورات مباشرةً في تحليلات التكلفة لديك، وليس نظريًا فحسب.

حمولات أصغر لكل استدعاء

إلى جانب تخزين البادئة المشتركة مؤقتاً، يقلّص Entity Enricher الجزء غير المشترك من كل استدعاء.

تجزئة المخطط لكل مجال خبرة

يتلقّى كل استدعاء خبرة فقط الجزء من المخطط المسؤول عنه، لا المخطط بأكمله.

لا يرى الخبير المالي الحقول التنظيمية أبدًا. حقول أقل تعني رموزًا أقل دخولًا وخروجًا — وتُقلَّم الاستجابة إلى شريحتها قبل الدمج.

قناة نصية بلا مخطط

عند إرفاق مستندات ولم تختر وضع الإخراج المنظم الصارم، تبقى قائمة الحقول في الموجّه (prompt) القابل للقراءة فقط — ولا يُكرَّر أي مخطط عبر الشبكة.

يُسقط هذا رموز المخطط بالكامل ويُبقي البادئة المشتركة متطابقة (فتُخزَّن مؤقتًا بشكل أفضل). ولا يزال الرد يخضع للتحقق من جانب العميل، مع تصحيح ذاتي تلقائي عند الانحراف.

لا تدفع مقابل إثراء الشيء الخاطئ

يُشغّل التصنيف الأولي الاختياري نموذجًا واحدًا رخيصًا وسريعًا للتحقق مما إذا كان الكيان يطابق مخططك فعلًا قبل بدء أي إثراء مكلف متعدد النماذج. ويُكتشف عدم التطابق — مثل إرسال قمر إلى مخطط «كوكب» — بجزء من السنت بدلًا من إهدار إثراء كامل عبر عدة نماذج متميزة.

إنها عملية غير حاجبة (إذا فشل التحقق، يستمر الإثراء على أي حال) وقابلة للإلغاء، لذا لن تبدأ أبدًا بالدفع مقابل النماذج التي قررت تخطّيها.

إعادة محاولات مهدرة أقل

جولة تحقق فاشلة هي استدعاء LLM بالسعر الكامل دون أي نتيجة تُذكر. آليتان تُبقيان عمليات إعادة المحاولة نادرة ومثمرة.

تسوية الإخراج

يتم تصحيح مخالفات مخرجات LLM الشائعة — الكائنات المفهرسة التي ينبغي أن تكون مصفوفات، والسلسلة 'null'، وعلامات الاقتباس المهملة ذات أحرف الهروب — قبل تشغيل التحقق.

يُصحَّح كثير من حالات فشل التحقق المحتملة بصمت، فلا تؤدي أبدًا إلى إعادة محاولة مدفوعة على الإطلاق.

تصحيح ذاتي موجَّه

عندما تكون إعادة المحاولة ضرورية فعلًا، يُعاد تمرير خطأ التحقق الدقيق إلى النموذج ليتمكن من إصلاح تلك المشكلة تحديدًا.

تزيد الملاحظات الواضحة والمحددة من فرص نجاح المحاولة التالية، بدلًا من إهدار المحاولات على توجيهات غامضة.

الاستراتيجية الصحيحة، تزامن متحكَّم فيه

اختر الاستراتيجية التي تناسب المخطط

التمريرة الواحدة هي الأرخص للمخططات الصغيرة؛ أما الخبرات المتعددة فمصممة للمخططات الكبيرة، حيث يفوق التخزين المؤقت مع تحديد النطاق لكل خبرة تكلفة الاستدعاءات الإضافية. راجع الاستراتيجيات لمعرفة متى تستخدم كلًّا منها.

يتجنّب تحديد المعدل التذبذب المكلف

يمنع حدّ التزامن لكل مزوّد المهامَّ من إرهاق المزوّد حتى بلوغ أخطاء حدّ المعدل، التي قد تؤدي لولا ذلك إلى تشغيل التراجع وإعادة المحاولات — رموز ووقت مهدران. التزامن المكبوح والثابت أرخص من مصارعة أخطاء 429.

رؤية كاملة للتكلفة

تسجّل كل عملية إثراء أعداد الرموز الحقيقية الخاصة بها — بما في ذلك القراءات المخزّنة مؤقتاً — والتكلفة الناتجة. وتحوّل لوحة التكاليف ذلك إلى مخططات زمنية وتفصيلات لكل نموذج، حتى تتمكن من رؤية أين يذهب الإنفاق بالضبط والتأكد من أن التخزين المؤقت وتحديد النطاق يؤديان دورهما. والسعر الذي تراه هو السعر الذي تُحاسَب عليه؛ وتبقى تكاليف المزوّد الأولية وأي هامش ربح للمنصة شفافة.

الاستراتيجيات

التمريرة الواحدة مقابل الخبرات المتعددة

التصنيف

تجنَّب إثراء الكيان الخاطئ

متعدد اللغات

40 لغة في استدعاء واحد

لوحة التكلفة

التحليلات والتكاليف لكل نموذج