مع الإثراء باستخدام LLM، تكون الفاتورة هي الرموز (tokens). صُمِّم Entity Enricher لإرسال أقل عدد ممكن من الرموز المفوترة دون التضحية بالدقة — بقيادة التخزين المؤقت للموجّهات، ومدعومًا بتحديد نطاق المخطط، والتحكم الذكي، وتقليل عمليات إعادة المحاولة المهدرة. يحدث معظم ذلك تلقائيًا؛ ولا يتطلب أي شيء هنا إعدادًا إضافيًا.
تدفع كل عملية إثراء مقابل رموز الإدخال (طلبك، والمخطط، وأي مستندات مرفقة)، ورموز الإخراج (النتيجة المنظّمة)، وكذلك — إن كانت مُفعّلة — استعلامات البحث على الويب. وعادةً ما يكون الجزء الأكبر والأكثر تكراراً هو الإدخال: إذ يُعاد إرسال التعليمات النظامية نفسها، ووصف المخطط، والمستندات المصدرية في كل استدعاء. إن تخزين هذا الإدخال المشترك مؤقتاً هو أكبر عامل مؤثر بمفرده، ولذلك يأتي أولاً.
المُوجّه + المخطط + المرفقات. كبير ومتكرر بشدة عبر الاستدعاءات — الهدف الأمثل للتخزين المؤقت وتحديد النطاق.
النتيجة المُهيكلة. تظل موجزة بسؤال كل نموذج عن الحقول التي يملكها فعليًا فقط.
محاولات إعادة فاشلة، وتضارب في حدود المعدل، وإثراء الكيان الخاطئ. يُزال مسبقًا بدلًا من دفع ثمنه.
عند تشغيل إثراء متعدد مجالات الخبرة، فإنه يُجري عدة استدعاءات LLM للكيان نفسه — استدعاء واحد لكل مجال خبرة. وتتشارك كل هذه الاستدعاءات السياق الافتتاحي نفسه: تعليمات النظام العامة وأي مستندات نصية مضمّنة أرفقتها. يُبقي Entity Enricher هذه البادئة المشتركة متطابقة بايتًا ببايت عبر الاستدعاءات ويضعها كقابلة للتخزين المؤقت، بحيث يخزّنها المزوّد مرة واحدة ويعيد قراءتها في كل استدعاء لاحق بنحو عُشر سعر الإدخال المعتاد.
يعيد كل استدعاء من الاستدعاءات الـ N إرسال السياق المشترك الكامل بسعر الإدخال الكامل. فوجود خمس خبرات يعني دفع ثمن تلك الكتلة المشتركة الكبيرة خمس مرات.
تُكتب الكتلة المشتركة إلى ذاكرة التخزين المؤقت مرة واحدة، ثم تُقرأ في المكالمات الأربع الأخرى بنحو 10% من سعر الإدخال. وتزداد الوفورات مع كل خبرة ولغة ومستند مرفق إضافي.
لا يمكن قراءة ذاكرة التخزين المؤقت للمزوّد إلا بعد انتهاء أول طلب يكتب فيها. فلو انطلقت كل نداءات مجال الخبرة دفعة واحدة، لما وجد أيٌّ منها ذاكرة مؤقتة جاهزة، ولكتب كلٌّ منها نسخته الخاصة على نحو متكرر. لذا عند انطباق التخزين المؤقت، يُنفَّذ النداء الأول بمفرده، ويُتاح وقت قصير لانتشار الذاكرة المؤقتة، وعندئذ فقط تُطلَق بقية النداءات بالتوازي — فيقرأ كلٌّ منها الذاكرة المؤقتة الجاهزة بدلًا من تحمّل كلفة إعادة كتابتها.
تخزّن نماذج Anthropic التعليمات المشتركة مؤقتًا بشكل صريح؛ وتُخزّن ملفات PDF والصور المرفقة مؤقتًا في مكانها؛ ويستفيد المزودون الذين يدعمون التخزين المؤقت التلقائي للبادئة (OpenAI وxAI وDeepSeek وغيرهم) من البادئة نفسها المتطابقة بايتًا ببايت. ويؤتي التخزين المؤقت ثماره أكثر ما يكون عندما يكون الإدخال كبيرًا — مجالات خبرة عديدة، أو لغات متعددة، أو مستندات مرفقة.
تُراعي محاسبة التكلفة التخزين المؤقت: تُفوتَر الرموز المميّزة للإدخال المخزَّنة مؤقتًا بسعر قراءة التخزين المؤقت للنموذج (جزء من سعر الإدخال)، ولا تُفوتَر بالسعر الكامل إلا الرموز الجديدة فعليًا. وتظهر هذه الوفورات مباشرةً في تحليلات التكلفة لديك، وليس نظريًا فحسب.
إلى جانب تخزين البادئة المشتركة مؤقتاً، يقلّص Entity Enricher الجزء غير المشترك من كل استدعاء.
يتلقّى كل استدعاء خبرة فقط الجزء من المخطط المسؤول عنه، لا المخطط بأكمله.
لا يرى الخبير المالي الحقول التنظيمية أبدًا. حقول أقل تعني رموزًا أقل دخولًا وخروجًا — وتُقلَّم الاستجابة إلى شريحتها قبل الدمج.
عند إرفاق مستندات ولم تختر وضع الإخراج المنظم الصارم، تبقى قائمة الحقول في الموجّه (prompt) القابل للقراءة فقط — ولا يُكرَّر أي مخطط عبر الشبكة.
يُسقط هذا رموز المخطط بالكامل ويُبقي البادئة المشتركة متطابقة (فتُخزَّن مؤقتًا بشكل أفضل). ولا يزال الرد يخضع للتحقق من جانب العميل، مع تصحيح ذاتي تلقائي عند الانحراف.
يُشغّل التصنيف الأولي الاختياري نموذجًا واحدًا رخيصًا وسريعًا للتحقق مما إذا كان الكيان يطابق مخططك فعلًا قبل بدء أي إثراء مكلف متعدد النماذج. ويُكتشف عدم التطابق — مثل إرسال قمر إلى مخطط «كوكب» — بجزء من السنت بدلًا من إهدار إثراء كامل عبر عدة نماذج متميزة.
إنها عملية غير حاجبة (إذا فشل التحقق، يستمر الإثراء على أي حال) وقابلة للإلغاء، لذا لن تبدأ أبدًا بالدفع مقابل النماذج التي قررت تخطّيها.
جولة تحقق فاشلة هي استدعاء LLM بالسعر الكامل دون أي نتيجة تُذكر. آليتان تُبقيان عمليات إعادة المحاولة نادرة ومثمرة.
يتم تصحيح مخالفات مخرجات LLM الشائعة — الكائنات المفهرسة التي ينبغي أن تكون مصفوفات، والسلسلة 'null'، وعلامات الاقتباس المهملة ذات أحرف الهروب — قبل تشغيل التحقق.
يُصحَّح كثير من حالات فشل التحقق المحتملة بصمت، فلا تؤدي أبدًا إلى إعادة محاولة مدفوعة على الإطلاق.
عندما تكون إعادة المحاولة ضرورية فعلًا، يُعاد تمرير خطأ التحقق الدقيق إلى النموذج ليتمكن من إصلاح تلك المشكلة تحديدًا.
تزيد الملاحظات الواضحة والمحددة من فرص نجاح المحاولة التالية، بدلًا من إهدار المحاولات على توجيهات غامضة.
التمريرة الواحدة هي الأرخص للمخططات الصغيرة؛ أما الخبرات المتعددة فمصممة للمخططات الكبيرة، حيث يفوق التخزين المؤقت مع تحديد النطاق لكل خبرة تكلفة الاستدعاءات الإضافية. راجع الاستراتيجيات لمعرفة متى تستخدم كلًّا منها.
يمنع حدّ التزامن لكل مزوّد المهامَّ من إرهاق المزوّد حتى بلوغ أخطاء حدّ المعدل، التي قد تؤدي لولا ذلك إلى تشغيل التراجع وإعادة المحاولات — رموز ووقت مهدران. التزامن المكبوح والثابت أرخص من مصارعة أخطاء 429.
تسجّل كل عملية إثراء أعداد الرموز الحقيقية الخاصة بها — بما في ذلك القراءات المخزّنة مؤقتاً — والتكلفة الناتجة. وتحوّل لوحة التكاليف ذلك إلى مخططات زمنية وتفصيلات لكل نموذج، حتى تتمكن من رؤية أين يذهب الإنفاق بالضبط والتأكد من أن التخزين المؤقت وتحديد النطاق يؤديان دورهما. والسعر الذي تراه هو السعر الذي تُحاسَب عليه؛ وتبقى تكاليف المزوّد الأولية وأي هامش ربح للمنصة شفافة.