बैच प्रोसेसिंग - Entity Enricher डॉक्युमेंटेशन

बैच प्रोसेसिंग

रियल-टाइम प्रगति ट्रैकिंग, स्वचालित मल्टी-मॉडल फ्यूज़न, और JSON या Excel में एक्सपोर्ट के साथ एक साथ 100 तक एंटिटीज़ को संवर्धित करें।

इनपुट विधियाँ

बैच एनरिचमेंट एंटिटी डेटा प्रदान करने के दो तरीकों का समर्थन करता है:

JSON संपादक

entity की एक JSON array सीधे पेस्ट करें या टाइप करें। एडिटर सिंटैक्स हाइलाइटिंग, वैलिडेशन मार्कर प्रदान करता है और आपका डेटा सेशनों के बीच लोकल स्टोरेज में बनाए रखता है।

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

URL फ़ेच

किसी भी REST API एंडपॉइंट से एंटिटीज़ फ़ेच करें। सिस्टम स्वचालित रूप से सामान्य रिस्पॉन्स रैपर्स से arrays निकाल लेता है।

समर्थित प्रमाणीकरण:

कोई नहींBearer टोकनAPI कुंजी हेडरबेसिक Auth

यदि API कोई ऑब्जेक्ट लौटाता है, तो सिस्टम एम्बेडेड array के लिए data, results, items जैसी कुंजियों की जाँच करता है।

Entity चयन और सत्यापन

एंटिटीज़ लोड होने के बाद, वे वैलिडेशन स्थिति के साथ एक चयन योग्य सूची में दिखाई देती हैं। आप चुन सकते हैं कि बैच में कौन-सी एंटिटीज़ शामिल करनी हैं:

मल्टी-सिलेक्ट— अलग-अलग एंटिटी चुनने के लिए क्लिक करें। रेंज के लिए Shift+क्लिक करें। सभी चुनने के लिए Ctrl+A, सभी अचयनित करने के लिए Ctrl+D।

इनलाइन संपादन— एनरिचमेंट से पहले सर्च की फ़ील्ड (नाम, देश, आदि) को सूची में सीधे संपादित करने के लिए उन पर क्लिक करें।

सत्यापन— हर entity को schema की search keys के विरुद्ध सत्यापित किया जाता है। कम से कम एक search key भरी होनी चाहिए। अमान्य entity चेतावनियाँ दिखाती हैं पर फिर भी चुनी जा सकती हैं।

चयनात्मक प्रोसेसिंग— enrichment के लिए केवल चयनित entities भेजी जाती हैं। जिन entities को आप प्रोसेस नहीं करना चाहते, उन्हें अचयनित करें।

कॉन्फ़िगरेशन

साइडबार सिंगल एनरिचमेंट कॉन्फ़िगरेशन विकल्पों को दर्शाता है:

विकल्प	विवरण
स्कीमा	लक्ष्य schema जो enrichment आउटपुट संरचना को परिभाषित करता है
रणनीति	सिंगल पास, एक्सपर्ट डोमेन, या मल्टी-एक्सपर्टीज़ (प्रति डोमेन पैरेलल कॉल)
मॉडल	प्रति entity चलाने के लिए एक या अधिक AI models। कई models स्वचालित fusion को सक्षम करते हैं।
भाषाएँ	बहुभाषी फ़ील्ड संवर्धन के लिए भाषाएँ (जैसे, अंग्रेज़ी + फ़्रेंच)
क्लासिफिकेशन	एनरिचमेंट से पहले एंटिटी प्रकार सत्यापन के लिए वैकल्पिक तेज़ मॉडल
आर्बिट्रेशन	फ़्यूज़न के दौरान LLM-आधारित संघर्ष समाधान के लिए मॉडल। यदि अनसेट है, तो नियम-आधारित मर्ज का उपयोग किया जाता है।

लागत अनुमान

बैच शुरू करने से पहले, एक पुष्टिकरण डायलॉग लागत अनुमान और सारांश दिखाता है। यह अनुमान प्रॉपर्टी काउंट, मॉडल प्राइसिंग, और चुनी गई एंटिटीज़ व मॉडल्स की संख्या के आधार पर गणना किया जाता है। कुल LLM कॉल काउंट 100 से अधिक होने पर एक चेतावनी दिखाई देती है।

Entity

मॉडल

कुल कॉल

~40

अनुमानित लागत

~$1.50

समानांतर निष्पादन

सभी चयनित एंटिटी एक साथ प्रोसेस की जाती हैं। प्रत्येक एंटिटी स्वतंत्र रूप से पूरी एनरिचमेंट पाइपलाइन से गुज़रती है:

प्रति-entity पाइपलाइन

क्लासिफिकेशन (वैकल्पिक) — एक तेज़ मॉडल एंटिटी प्रकार की पुष्टि करता है। बैच मोड में, बेमेल जॉब को रोकते नहीं हैं; कॉन्टेक्स्ट आगे भेज दिया जाता है।
मल्टी-मॉडल एनरिचमेंट — प्रत्येक चयनित मॉडल एंटिटी को समानांतर रूप से एनरिच करता है, प्रति-प्रोवाइडर रेट लिमिटिंग के साथ।
ऑटो-फ्यूज़न (जब 2+ मॉडल सफल होते हैं) — संघर्ष पहचान और समाधान का उपयोग करके परिणाम स्वचालित रूप से मर्ज किए जाते हैं।

रेट लिमिटिंग

एक ग्लोबल rate limiter AI provider पर अत्यधिक भार पड़ने से रोकता है। सभी entity समान per-provider concurrency सीमाएँ साझा करती हैं (आमतौर पर प्रति provider 5 एक साथ call)। 20 entity और 2 model के साथ, प्रति provider एक साथ 5 call तक चलते हैं — बाकी उपलब्धता के लिए प्रतीक्षा करते हैं। यह API rate सीमाओं से टकराए बिना विश्वसनीय निष्पादन सुनिश्चित करता है।

रीयल-टाइम प्रगति

रिज़ल्ट पैनल Server-Sent Events (SSE) का उपयोग करके लाइव प्रगति दिखाता है। हर एंटिटी के पास एक कोलैप्सिबल कार्ड होता है जो रियल टाइम में अपडेट होता है:

लंबित

प्रोसेसिंग शुरू होने की प्रतीक्षा में

चल रहा है

वर्तमान में संवर्धित किया जा रहा है, प्रत्येक डोमेन के अनुसार पूर्णता दर्शाने वाले विशेषज्ञता प्रगति बैज के साथ

पूर्ण

सभी मॉडल सफलतापूर्वक पूरे हुए। कार्ड स्वतः संक्षिप्त हो जाता है।

आंशिक

कुछ मॉडल या विशेषज्ञताएँ विफल हुईं। आंशिक परिणाम उपलब्ध हैं।

विफल

इस एंटिटी के लिए सभी मॉडल विफल रहे। त्रुटि विवरण दिखाया गया है।

रद्दीकरण और त्रुटि प्रबंधन

आप किसी भी समय चल रहे batch को रद्द कर सकते हैं। रद्दीकरण सहयोगात्मक है — पहले से प्रक्रिया में मौजूद entity अपना मौजूदा LLM कॉल पूरा करती हैं, लेकिन कोई नया कॉल शुरू नहीं होता। पूर्ण हुई entity के आंशिक परिणाम संरक्षित रहते हैं।

त्रुटि लचीलापन

बैच प्रोसेसिंग को लचीला बनाने के लिए डिज़ाइन किया गया है। व्यक्तिगत विफलताएँ बैच को नहीं रोकतीं:

यदि किसी एंटिटी के लिए वर्गीकरण विफल हो जाता है, तो एनरिचमेंट बिना संदर्भ के आगे बढ़ता है
यदि एक मॉडल विफल होता है, तो उस एंटिटी के अन्य मॉडल जारी रहते हैं
यदि किसी एंटिटी के लिए सभी मॉडल विफल हो जाते हैं, तो उसे विफल के रूप में चिह्नित किया जाता है जबकि अन्य जारी रहते हैं
“not found” त्रुटि लौटाने वाले मॉडल स्वतः निष्क्रिय कर दिए जाते हैं

एक्सपोर्ट फॉर्मेट

बैच पूरा होने के बाद, परिणामों को तीन फ़ॉर्मैट में एक्सपोर्ट करें। प्रत्येक एंटिटी के लिए, यदि उपलब्ध हो तो फ्यूज़न परिणाम को प्राथमिकता दी जाती है; अन्यथा, सर्वश्रेष्ठ मॉडल परिणाम का उपयोग किया जाता है।

JSON फ़ाइल

सभी एंटिटी डेटा, मॉडल आउटपुट और फ्यूज़न मेटाडेटा सहित पूरे परिणामों को एक संरचित JSON फ़ाइल के रूप में डाउनलोड करें।

क्लिपबोर्ड

JSON परिणामों को सीधे अपने क्लिपबोर्ड पर कॉपी करें ताकि उन्हें अन्य टूल या स्क्रिप्ट में पेस्ट किया जा सके।

Excel

एक तीन-शीट वर्कबुक: Results (प्रति entity एक पंक्ति, समतल की गई प्रॉपर्टीज़ के साथ), Summary (batch मेटाडेटा, models, लागतें), और Conflicts (समाधान तर्क सहित प्रति-entity विरोध विवरण)।

सीमाएँ

सीमा	मान
प्रति batch अधिकतम entities	100
अधिकतम entity डेटा आकार	50,000 अक्षर
अधिकतम prompt लंबाई	100,000 वर्ण
URL फ़ेच टाइमआउट	30 सेकंड