मॉडल बेंचमार्क - Entity Enricher दस्तावेज़ीकरण

मॉडल बेंचमार्क

बेंचमार्क सिनेरियो आपको एक वास्तविक, दोहराने योग्य एनरिचमेंट कार्य पर LLM मॉडल्स की तुलना करने देते हैं — एक जैसे बनाम एक जैसे — प्रत्येक मॉडल के आउटपुट और कुल लागत को कैप्चर करते हुए ताकि आप कार्य के लिए सही मॉडल चुन सकें।

बेंचमार्क क्यों?

मॉडल सटीकता, संरचित-आउटपुट विश्वसनीयता और मूल्य में बहुत भिन्न होते हैं। अनुमान लगाने के बजाय, एक बेंचमार्क परिदृश्य एक ही स्कीमा और एंटिटी को एक साथ कई मॉडलों के माध्यम से चलाता है और रिकॉर्ड करता है कि प्रत्येक ने क्या तैयार किया और उसकी लागत क्या रही। आप साक्ष्य के आधार पर तुलना करते हैं, फिर उस सबसे सस्ते मॉडल को लॉक कर देते हैं जो आपके गुणवत्ता मानक पर खरा उतरता है।

यह कैसे काम करता है

एक सिनेरियो परिभाषित करें

एक benchmark scenario एक सहेजा गया, पुन: उपयोग योग्य enrichment परीक्षण है: एक schema, एक निश्चित entity input (search key या raw JSON), एक enrichment रणनीति, भाषाएँ, response-schema / strict-structured-output टॉगल, और कोई भी attachment। इसमें इसका gold reference भी होता है और परिणाम उसके विरुद्ध कैसे आंके जाते हैं (एक वैकल्पिक judge model, एक embedding model, और एक strictness सीमा)। इसे एक बार परिभाषित करें और उन सभी model में पुन: उपयोग करें जिनकी आप तुलना करना चाहते हैं।

इसे मॉडलों में रन करें

एक बार scenario के पास verified reference हो जाने पर, इसे किसी एक provider के active models या view में मौजूद हर active model के विरुद्ध चलाएँ। हर model को स्वतंत्र रूप से enrich किया जाता है — कोई fusion नहीं — इसलिए आपको प्रति model एक साफ, साथ-साथ रखा परिणाम मिलता है। प्रगति लाइव स्ट्रीम होती है, और run समाप्त होते ही प्रत्येक सफल परिणाम को reference के विरुद्ध स्वचालित रूप से स्कोर किया जाता है।

output और लागत की तुलना करें

हर रन अपने स्ट्रक्चर्ड आउटपुट, सफलता स्थिति, टोकन गिनती, प्रोसेसिंग समय, और कुल बिल की गई लागत के साथ सहेजा जाता है। JSON आउटपुट का निरीक्षण करने या अंतर्निहित संवर्धन रिकॉर्ड पर जाने के लिए किसी भी पंक्ति को विस्तृत करें।

रिफ्रेश करने के लिए फिर से चलाएँ

एक ही मॉडल पर किसी सिनेरियो को फिर से चलाना उसके पिछले परिणाम को ओवरराइटकर देता है, इसलिए टेबल हमेशा नवीनतम रन को दर्शाता है। किसी सिनेरियो का कॉन्फ़िग एडिट करें और पुराने परिणामों को बासी के रूप में चिह्नित किया जाता है जब तक कि आप उन्हें फिर से न चलाएँ। Runs per model को 2 या 3 पर सेट करें और प्रत्येक मॉडल को उतनी ही बार बेंचमार्क किया जाता है — टेबल लागत, गुणवत्ता, और गति का औसत रखता है साथ ही एक कंसिस्टेंसी स्प्रेड (मॉडल रन-दर-रन बदलते हैं), लगभग क्रेडिट के उतने गुणा पर।

परिणाम पढ़ना

रिज़ल्ट टेबल तुलना के लिए बनाई गई है। ऊपर एक सारांश पट्टी सफलता दर और सफल हुए सबसे सस्ते तथा सबसे तेज़ मॉडल को दर्शाती है। हर कॉलम — मॉडल, स्टेटस, स्ट्रैटेजी, लागत, टोकन और समय — सॉर्ट करने योग्य है, इसलिए एक क्लिक में मॉडल कीमत या लेटेंसी के अनुसार रैंक हो जाते हैं। मॉडल नाम, स्टेटस या स्ट्रैटेजी के अनुसार फ़िल्टर करके दृश्य को सीमित करें, और पूरा स्ट्रक्चर्ड आउटपुट पढ़ने या अंतर्निहित एनरिचमेंट रिकॉर्ड खोलने के लिए किसी भी पंक्ति का विस्तार करें।

पुनरावृत्ति: पुनः प्रयास करें और अक्षम करें

बेंचमार्किंग इटरेटिव है। चेकबॉक्स से पंक्तियों को टिक करें (रेंज के लिए shift-click करें), फिर सब कुछ दोबारा चलाए बिना किसी सबसेट पर कार्रवाई करने के लिए ··· मेन्यू का उपयोग करें:

चयनित / विफल / बासी को पुनः प्रयास करें — केवल उन्हीं मॉडलों को फिर से चलाएँ; परिणाम यथास्थान अधिलेखित होते हैं। विफल और बासी जानबूझकर पूरे परिणाम सेट में फैले होते हैं, इसलिए कोई सक्रिय फ़िल्टर किसी पुनः प्रयास लक्ष्य को कभी नहीं छिपाता।
विफल / चयनित अक्षम करें — मॉडल बंद करें ताकि वे संवर्धन पिकर में दिखना बंद कर दें। उन मॉडलों को हटाने के लिए उपयोगी जो लगातार आपके स्कीमा में विफल होते हैं, या जिनका आउटपुट आपके मानक तक नहीं पहुँचा।

एक gold reference सेट करें (benchmark के लिए आवश्यक)

हर परिदृश्य में एक संदर्भ परिणाम होता है — इसकी एंटिटी के लिए अपेक्षित आउटपुट — और किसी परिदृश्य को केवल तभी बेंचमार्क किया जा सकता है जब वह संदर्भ सत्यापित हो। तब तक यह किसी भी रन मेनू में नहीं दिखेगा। संदर्भ गुणवत्ता आँकने का आधार है: हर मॉडल फ़ील्ड-दर-फ़ील्ड कितना करीब पहुँचता है, और (किसी फ़िल्म की कास्ट जैसी सूचियों के लिए) उसने वास्तव में कितने सही आइटम खोजे। आप इसे — इसके साथ इस्तेमाल किए गए जज मॉडल, एम्बेडिंग मॉडल, और सख्ती के साथ — परिदृश्य संपादक में ही सेट करते हैं।

इसे दो तरीकों से बनाएं। इसे Generate करें: एक ऐसा डॉक्युमेंट अटैच करें जिसमें सही मान हों (एक डेटाशीट, एक आधिकारिक पेज), वेब सर्च चालू करें, और कुछ मजबूत मॉडल चलाएं — वे स्मृति के बजाय आपके स्रोत से उत्तर निकालते हैं, इसलिए परिणाम अनुमान पर नहीं, बल्कि सच्चाई पर आधारित होता है। या कोई ज्ञात-सही परिणाम जो आपके पास पहले से है उसे paste करें। किसी भी तरह से आप JSON की समीक्षा करते हैं, कुछ भी सुधारते हैं, और उसे verified के रूप में चिह्नित करते हैं — एक स्पष्ट सहमति कि यही गोल्ड उत्तर है।

क्योंकि रेफरेंस को आधार-सहित तैयार किया जाता है और एक बार मानव द्वारा जाँचा जाता है, यह एक भरोसेमंद मापदंड के रूप में भी काम करता है जिसे आप हर मॉडल और हर भविष्य के रन में दोबारा उपयोग करते हैं।

इसे कहां खोजें

बेंचमार्क Model Management → Benchmarks में रहते हैं (संगठन के मालिकों और एडमिन के लिए उपलब्ध)। वहाँ परिदृश्य बनाएँ और प्रबंधित करें, या चार जगहों में से किसी से भी रन लॉन्च करें: टूलबार में Benchmark models बटन (व्यू में सभी सक्रिय मॉडल), किसी भी provider पंक्ति पर Benchmark models क्रिया (उस provider के सक्रिय मॉडल), Models पैनल में मॉडल चुनने पर दिखने वाला Benchmark ड्रॉपडाउन (चुने गए मॉडल), या किसी एकल मॉडल पंक्ति पर Benchmark model क्रिया।

लागत और बिलिंग

बेंचमार्क रन वास्तविक LLM कॉल्स करते हैं और वास्तविक उपयोग के आधार पर क्रेडिट काटते हैं, ठीक एक सामान्य एनरिचमेंट की तरह। पुष्टिकरण डायलॉग आपको बताता है कि कोई खर्च होने से पहले आप कितने मॉडल्स चलाने वाले हैं। प्रत्येक सहेजा गया परिणाम अपनी बिल की गई लागत दिखाता है, इसलिए बेंचमार्क लागत-तुलना उपकरण के रूप में भी काम करता है।

बेंचमार्क स्कोरिंग

परिणामों को एक गोल्ड संदर्भ के विरुद्ध ग्रेड करें — समतुल्यता, ऐरे F1, उप-स्कोर।

मॉडल और मूल्य निर्धारण

models का प्रबंधन करें, मूल्य निर्धारण सिंक करें, और हेल्थ चेक चलाएँ।

Enrichment रणनीतियाँ

सिंगल-पास बनाम एक्सपर्ट-डोमेन बनाम मल्टी-एक्सपर्टीज़।

लागत अनुकूलन

कैशिंग और गेटिंग के साथ एनरिचमेंट को सस्ता रखें।

लागत डैशबोर्ड

समय-श्रृंखला और प्रति-मॉडल विवरण के साथ खर्च का विश्लेषण करें।