मॉडल और मूल्य निर्धारण - Entity Enricher दस्तावेज़ीकरण

मॉडल और मूल्य निर्धारण

LLM providers और models का प्रबंधन करें, बाहरी रजिस्ट्री से models सिंक करें, हेल्थ चेक चलाएँ, और स्वतंत्र बिलिंग के लिए प्रति-organization API keys कॉन्फ़िगर करें।

प्रोवाइडर प्रबंधन

Entity Enricher LLM प्रोवाइडर्स की एक विस्तृत श्रृंखला का समर्थन करता है। प्रत्येक प्रोवाइडर के पास अलग-अलग मूल्य निर्धारण, क्षमताओं, और कॉन्फ़िगरेशन वाले कई मॉडल हो सकते हैं।

समर्थित प्रोवाइडर

AnthropicOpenAIGoogleMistralDeepSeekGroqTogether AIFireworks AICoherexAINVIDIA NIMOllamaAzure OpenAI

प्रोवाइडर प्रकार

स्टैंडर्डअधिकांश प्रोवाइडर (Anthropic, OpenAI, Mistral, आदि) बियरर टोकन ऑथेंटिकेशन के साथ मानक API एंडपॉइंट का उपयोग करते हैं। एक Standard प्रोवाइडर कस्टम OpenAI-संगत एंडपॉइंट की ओर भी इशारा कर सकता है — नीचे Custom & Corporate Endpoints देखें।
AzureAzure OpenAI, API वर्शन कॉन्फ़िगरेशन के साथ कस्टम डिप्लॉयमेंट एंडपॉइंट का उपयोग करता है।
Ollamaकस्टम एंडपॉइंट URL और स्वचालित मॉडल डिस्कवरी के साथ सेल्फ-होस्टेड Ollama इंस्टेंस।

कस्टम और कॉर्पोरेट एंडपॉइंट

कई टीमें LLM ट्रैफ़िक को किसी कॉर्पोरेट AI गेटवे, किसी क्षेत्रीय एंडपॉइंट, या किसी ऐसे provider के माध्यम से रूट करती हैं जो बिल्ट-इन नहीं है — उदाहरण के लिए एक एंटरप्राइज़ LiteLLM प्रॉक्सी, Cloudflare AI Gateway, या Alibaba DashScope (Qwen मॉडल के लिए)। आप इन्हें एक कस्टम base URL के साथ अपने खुद के Standard (OpenAI-compatible) provider के रूप में जोड़ते हैं।

गेटवे प्रोवाइडर जोड़ना

  1. ऐसे नाम के साथ एक provider बनाएँ जो बिल्ट-इन में से न हो (उदाहरण के लिए acme-openai-gw)। openai या anthropic जैसे बिल्ट-इन नाम आरक्षित हैं।
  2. Standard (OpenAI-compatible) प्रकार चुनें और Custom API endpoint (base URL) भरें — जैसे https://gateway.example.com/v1। यह फ़ील्ड किसी भी ऐसे प्रोवाइडर के लिए आवश्यक है जिसके लिए Entity Enricher के पास कोई बिल्ट-इन क्लाइंट नहीं है।
  3. उस प्रोवाइडर के लिए गेटवे की कुंजी को ऑर्गनाइज़ेशन कुंजी के रूप में जोड़ें (API Keys → AI Provider Keys), ताकि यह प्रति ऑर्गनाइज़ेशन बिलिंग और रोटेशन करे।
  4. गेटवे जो मॉडल सर्व करता है उन्हें जोड़ें। मॉडल पहचानकर्ता हूबहू भेजा जाता है, इसलिए यह गेटवे की अपेक्षा से बिल्कुल मेल खाना चाहिए।

जानना अच्छा है

  • बिल्ट-इन प्रोवाइडर एंडपॉइंट फ़ील्ड छिपा देते हैं। Anthropic, OpenAI, Mistral, और अन्य मान्यता प्राप्त प्रोवाइडर अपना एंडपॉइंट पहले से जानते हैं, इसलिए कॉन्फ़िगर करने के लिए कुछ नहीं है। यदि कोई कस्टम प्रोवाइडर बाद में बिल्ट-इन बन जाता है, तो उसका सहेजा गया एंडपॉइंट दिखता रहता है ताकि आप उसे साफ़ कर सकें।
  • केवल सार्वजनिक HTTPS। एंडपॉइंट्स सार्वजनिक https:// URL होने चाहिए। SSRF को रोकने के लिए लूपबैक और निजी रेंज (localhost, 10.x, 192.168.x) अस्वीकार कर दी जाती हैं — एक सेल्फ-होस्टेड सर्वर इंटरनेट पर पहुँच योग्य होना चाहिए। स्थानीय Ollama के लिए, इसके बजाय समर्पित Ollama टनल का उपयोग करें।
  • OpenAI-संगत वायर फ़ॉर्मेट। कस्टम प्रोवाइडर को की जाने वाली कॉल्स OpenAI-संगत API के माध्यम से रूट की जाती हैं, इसलिए एंडपॉइंट को OpenAI /v1 प्रोटोकॉल (चैट कंप्लीशन, /models) बोलना चाहिए।
  • कनेक्शन टेस्ट करें संवर्धन चलाने से पहले की और बेस URL को सत्यापित करने के लिए {endpoint}/models की जाँच करता है।

समवर्तीता सीमाएँ (प्रति key)

हर provider में एक प्रति key अधिकतम समवर्ती कॉल सेटिंग होती है (उसका rate-limit ओवरराइड)। यह सीमित करती है कि एक single API key समानांतर में कितनी LLM कॉल चलाती है — key का उपयोग करने वाले हर फ़्लो को कवर करते हुए: multi-expertise enrichment फ़ैन-आउट, classification, arbitration, और schema / सैंपल जनरेशन।

  • प्रति की सीमित, प्रति प्रोवाइडर नहीं। हर ऑर्गनाइज़ेशन की और साझा ग्लोबल की को अपना स्वतंत्र बजट मिलता है, इसलिए एक की की समानांतर कॉल्स कभी दूसरी की को नहीं दबातीं।
  • एक उचित डिफ़ॉल्ट पर वापस आ जाता है जब अनसेट छोड़ा जाता है (प्रति-प्रोवाइडर डिफ़ॉल्ट, आमतौर पर 3–5 समवर्ती कॉल)।
  • अगली जॉब पर प्रभावी होता है — पुनः आरंभ की आवश्यकता नहीं।

यह आपके प्लान की अधिकतम समवर्ती जॉब सीमा से अलग है, जो यह सीमित करती है कि आपका पूरा संगठन सभी प्रोवाइडरों में एक साथ कितने एनरिचमेंट जॉब चलाता है।

मॉडल क्षमताएँ

हर model अपनी क्षमताओं को ट्रैक करता है, जो model चयनकर्ता में आइकन के रूप में दिखाई जाती हैं:

क्षमताविवरण
विज़नइमेज और विज़ुअल इनपुट प्रोसेस कर सकता है
टूल कॉलफ़ंक्शन कॉलिंग / टूल उपयोग का समर्थन करता है
ऑडियो इनपुटऑडियो इनपुट प्रोसेस कर सकता है
PDF इनपुटPDF दस्तावेज़ प्रोसेस कर सकता है
प्रॉम्प्ट कैशिंगलागत घटाने के लिए प्रॉम्प्ट कैशिंग का समर्थन करता है
रीज़निंगविस्तारित थिंकिंग / चेन-ऑफ-थॉट क्षमताएँ

ऑटोमैटिक प्राइसिंग सिंक

बाहरी रजिस्ट्री से सिंक करके मॉडल प्राइसिंग को अप-टू-डेट रखें। सिंक प्रक्रिया नए मॉडल, मूल्य परिवर्तन, और हटाए गए मॉडल को स्वचालित रूप से पहचान लेती है।

LiteLLM रजिस्ट्री

डिफ़ॉल्ट मूल्य निर्धारण स्रोत। GitHub पर LiteLLM की समुदाय-द्वारा-अनुरक्षित रजिस्ट्री से वास्तविक API मॉडल नाम, मूल्य निर्धारण, संदर्भ लंबाई, और क्षमताएँ प्राप्त करता है।

लगभग 30 provider को कवर करता है। इसमें डिस्प्ले नाम, benchmark या जनरेशन स्पीड शामिल नहीं है।

PricePerToken

pricepertoken.com से एक वैकल्पिक स्रोत। इसमें प्रदर्शन नाम, benchmark (coding और math स्कोर), और generation गति (टोकन प्रति सेकंड) शामिल हैं।

लगभग 20 provider को कवर करता है। LiteLLM की तुलना में अधिक समृद्ध मेटाडेटा प्रदान करता है।

सिंक प्रक्रिया

  1. ड्राई-रन पूर्वावलोकन — लागू करने से पहले देखें कि क्या बदलेगा। नए मॉडल, मूल्य अपडेट, और निष्क्रियकरण देखें।
  2. सोर्स-स्कोप्ड मिलान — प्रत्येक सोर्स केवल उसी सोर्स के मॉडल को प्रभावित करता है। मैनुअल मॉडल को कभी नहीं छुआ जाता।
  3. स्थिर सिंक कीज़ — मॉडल एक स्थिर पहचानकर्ता से मिलाए जाते हैं, नाम से नहीं। आप सिंक तोड़े बिना मॉडल का नाम बदल सकते हैं।
  4. ट्रांज़ैक्शनल अप्लाई — संगति के लिए सभी परिवर्तन एक ही डेटाबेस ट्रांज़ैक्शन में लागू किए जाते हैं।
  5. ऑटो-प्रोवाइडर निर्माण — यदि कोई सिंक किया गया मॉडल किसी अज्ञात प्रोवाइडर का है, तो प्रोवाइडर स्वचालित रूप से बनाया जाता है।

मॉडल हेल्थ जाँचें

एक न्यूनतम हेल्थ चेक prompt चलाकर सक्रिय रूप से जाँचें कि models पहुँच योग्य हैं या नहीं। इससे enrichment के दौरान उपयोगकर्ताओं को त्रुटियाँ मिलने से पहले ही खराब models पकड़ में आ जाते हैं।

पासमॉडल सफलतापूर्वक जवाब देता है। यदि यह पहले स्वतः निष्क्रिय हो गया था, तो इसे फिर से सक्रिय कर दिया जाता है।
नहीं मिलामॉडल “not found” त्रुटि लौटाता है। भविष्य की विफलताओं को रोकने के लिए इसे स्वतः निष्क्रिय कर दिया जाता है।
अन्य त्रुटिप्रमाणीकरण त्रुटियाँ, टाइमआउट, या रेट लिमिट रिपोर्ट किए जाते हैं लेकिन निष्क्रियकरण को ट्रिगर नहीं करते।

हेल्थ चेक सभी मॉडलों, किसी विशिष्ट प्रोवाइडर के मॉडलों, या एकल मॉडल पर चलाए जा सकते हैं। परिणाम SSE के माध्यम से रियल टाइम में स्ट्रीम होते हैं और प्रोग्रेस बार पास/फेल गिनती दिखाता है।

ऑटो-निष्क्रियकरण

जब कोई संवर्धन कॉल “model not found” त्रुटि के साथ विफल होती है, तो बार-बार विफलताओं को रोकने के लिए मॉडल स्वतः निष्क्रिय कर दिया जाता है। यह सामान्य संवर्धन ऑपरेशन के दौरान रीयल टाइम में होता है।

निष्क्रियकरण का कारणकिसके द्वारा सेटऑटो-पुनःसक्रिय?
मॉडल नहीं मिलासंवर्धन त्रुटियाँ या हेल्थ चेकहाँ (pricing sync या validation द्वारा)
सिंक हटाया गयामूल्य सिंक (model गायब हो गया)हाँ (यदि model रजिस्ट्री में फिर से दिखे)
मैन्युअलUI में एडमिन टॉगलनहीं (केवल मैन्युअल पुनः-सक्रियण)

अपनी खुद की Key लाएँ (BYOK)

संगठन स्वतंत्र बिलिंग और उपयोग ट्रैकिंग के लिए अपनी स्वयं की LLM प्रोवाइडर API कुंजियाँ कॉन्फ़िगर कर सकते हैं। सिस्टम LRU चयन के साथ दो-स्तरीय कुंजी रिज़ॉल्यूशन का उपयोग करता है:

पहला
संगठन की पूल

API Keys पेज में कॉन्फ़िगर की गई प्रति-organization कीज़। LRU रोटेशन के साथ प्रति provider अनेक कीज़ का समर्थन करता है। Fernet से एन्क्रिप्टेड।

दूसरा
ग्लोबल की पूल

एडमिनिस्ट्रेटर द्वारा प्रबंधित सिस्टम-व्यापी कुंजियाँ। सभी ऑर्गनाइज़ेशन में साझा। यह LRU रोटेशन के साथ प्रति प्रोवाइडर कई कुंजियों का भी समर्थन करता है।

हर enrichment यह रिकॉर्ड करता है कि कौन-सी key इस्तेमाल हुई, ताकि आप प्रति key लागत ट्रैक कर सकें। Keys में हेल्थ चेक सपोर्ट, उपयोग काउंटर शामिल होते हैं, और स्थायी विफलताओं (अमान्य key, भुगतान आवश्यक) पर वे स्वतः अक्षम हो जाती हैं। Rate-limited keys को अस्थायी रूप से रोक दिया जाता है जबकि पूल की अन्य keys उपयोग की जाती हैं। Keys प्रबंधित करना API Keys गाइड में सीखें।

Import और Export

बैकअप या किसी अन्य इंस्टेंस में ट्रांसफर के लिए अपने संपूर्ण प्रोवाइडर और मॉडल कॉन्फ़िगरेशन को JSON के रूप में एक्सपोर्ट करें। इम्पोर्ट हमेशा एक upsert होता है: मौजूदा प्रोवाइडर और मॉडल नाम से मैच किए जाते हैं और यथास्थान अपडेट किए जाते हैं, जबकि नए जोड़े जाते हैं — कुछ भी नहीं हटाया जाता।

एक्सपोर्ट में प्रोवाइडर सेटिंग्स, मॉडल कॉन्फ़िगरेशन, प्राइसिंग, क्षमताएँ, और कैननिकल मॉडल स्पेक्स शामिल होते हैं — लेकिन API keys कभी नहीं, जो अलग से स्टोर की जाती हैं। इम्पोर्ट करने के बाद, API keys अलग से कॉन्फ़िगर करें। सिस्टम एडमिन पूरे ग्लोबल कैटलॉग का बैकअप लेते हैं; संगठन के मालिक केवल अपने ही संगठन के प्रोवाइडर और मॉडल एक्सपोर्ट और इम्पोर्ट करते हैं — शेयर्ड ग्लोबल कैटलॉग को इम्पोर्ट के ज़रिए न बनाया जा सकता है और न ही एडिट किया जा सकता है।

अगले चरण