बैच प्रोसेसिंग - Entity Enricher डॉक्युमेंटेशन

बैच प्रोसेसिंग

रियल-टाइम प्रगति ट्रैकिंग, स्वचालित मल्टी-मॉडल फ्यूज़न, और JSON या Excel में एक्सपोर्ट के साथ एक साथ 100 तक एंटिटीज़ को संवर्धित करें।

इनपुट विधियाँ

बैच एनरिचमेंट एंटिटी डेटा प्रदान करने के दो तरीकों का समर्थन करता है:

JSON संपादक

entity की एक JSON array सीधे पेस्ट करें या टाइप करें। एडिटर सिंटैक्स हाइलाइटिंग, वैलिडेशन मार्कर प्रदान करता है और आपका डेटा सेशनों के बीच लोकल स्टोरेज में बनाए रखता है।

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

URL फ़ेच

किसी भी REST API एंडपॉइंट से एंटिटीज़ फ़ेच करें। सिस्टम स्वचालित रूप से सामान्य रिस्पॉन्स रैपर्स से arrays निकाल लेता है।

समर्थित प्रमाणीकरण:

कोई नहींBearer टोकनAPI कुंजी हेडरबेसिक Auth

यदि API कोई ऑब्जेक्ट लौटाता है, तो सिस्टम एम्बेडेड array के लिए data, results, items जैसी कुंजियों की जाँच करता है।

Entity चयन और सत्यापन

एंटिटीज़ लोड होने के बाद, वे वैलिडेशन स्थिति के साथ एक चयन योग्य सूची में दिखाई देती हैं। आप चुन सकते हैं कि बैच में कौन-सी एंटिटीज़ शामिल करनी हैं:

मल्टी-सिलेक्टअलग-अलग एंटिटी चुनने के लिए क्लिक करें। रेंज के लिए Shift+क्लिक करें। सभी चुनने के लिए Ctrl+A, सभी अचयनित करने के लिए Ctrl+D।
इनलाइन संपादनएनरिचमेंट से पहले सर्च की फ़ील्ड (नाम, देश, आदि) को सूची में सीधे संपादित करने के लिए उन पर क्लिक करें।
सत्यापनहर entity को schema की search keys के विरुद्ध सत्यापित किया जाता है। कम से कम एक search key भरी होनी चाहिए। अमान्य entity चेतावनियाँ दिखाती हैं पर फिर भी चुनी जा सकती हैं।
चयनात्मक प्रोसेसिंगenrichment के लिए केवल चयनित entities भेजी जाती हैं। जिन entities को आप प्रोसेस नहीं करना चाहते, उन्हें अचयनित करें।

कॉन्फ़िगरेशन

साइडबार सिंगल एनरिचमेंट कॉन्फ़िगरेशन विकल्पों को दर्शाता है:

विकल्पविवरण
स्कीमालक्ष्य schema जो enrichment आउटपुट संरचना को परिभाषित करता है
रणनीतिसिंगल पास, एक्सपर्ट डोमेन, या मल्टी-एक्सपर्टीज़ (प्रति डोमेन पैरेलल कॉल)
मॉडलप्रति entity चलाने के लिए एक या अधिक AI models। कई models स्वचालित fusion को सक्षम करते हैं।
भाषाएँबहुभाषी फ़ील्ड संवर्धन के लिए भाषाएँ (जैसे, अंग्रेज़ी + फ़्रेंच)
क्लासिफिकेशनएनरिचमेंट से पहले एंटिटी प्रकार सत्यापन के लिए वैकल्पिक तेज़ मॉडल
आर्बिट्रेशनफ़्यूज़न के दौरान LLM-आधारित संघर्ष समाधान के लिए मॉडल। यदि अनसेट है, तो नियम-आधारित मर्ज का उपयोग किया जाता है।

लागत अनुमान

बैच शुरू करने से पहले, एक पुष्टिकरण डायलॉग लागत अनुमान और सारांश दिखाता है। यह अनुमान प्रॉपर्टी काउंट, मॉडल प्राइसिंग, और चुनी गई एंटिटीज़ व मॉडल्स की संख्या के आधार पर गणना किया जाता है। कुल LLM कॉल काउंट 100 से अधिक होने पर एक चेतावनी दिखाई देती है।

Entity
20
मॉडल
2
कुल कॉल
~40
अनुमानित लागत
~$1.50

समानांतर निष्पादन

सभी चयनित एंटिटी एक साथ प्रोसेस की जाती हैं। प्रत्येक एंटिटी स्वतंत्र रूप से पूरी एनरिचमेंट पाइपलाइन से गुज़रती है:

प्रति-entity पाइपलाइन

  1. क्लासिफिकेशन (वैकल्पिक) — एक तेज़ मॉडल एंटिटी प्रकार की पुष्टि करता है। बैच मोड में, बेमेल जॉब को रोकते नहीं हैं; कॉन्टेक्स्ट आगे भेज दिया जाता है।
  2. मल्टी-मॉडल एनरिचमेंट — प्रत्येक चयनित मॉडल एंटिटी को समानांतर रूप से एनरिच करता है, प्रति-प्रोवाइडर रेट लिमिटिंग के साथ।
  3. ऑटो-फ्यूज़न (जब 2+ मॉडल सफल होते हैं) — संघर्ष पहचान और समाधान का उपयोग करके परिणाम स्वचालित रूप से मर्ज किए जाते हैं।

रेट लिमिटिंग

एक ग्लोबल rate limiter AI provider पर अत्यधिक भार पड़ने से रोकता है। सभी entity समान per-provider concurrency सीमाएँ साझा करती हैं (आमतौर पर प्रति provider 5 एक साथ call)। 20 entity और 2 model के साथ, प्रति provider एक साथ 5 call तक चलते हैं — बाकी उपलब्धता के लिए प्रतीक्षा करते हैं। यह API rate सीमाओं से टकराए बिना विश्वसनीय निष्पादन सुनिश्चित करता है।

रीयल-टाइम प्रगति

रिज़ल्ट पैनल Server-Sent Events (SSE) का उपयोग करके लाइव प्रगति दिखाता है। हर एंटिटी के पास एक कोलैप्सिबल कार्ड होता है जो रियल टाइम में अपडेट होता है:

लंबित

प्रोसेसिंग शुरू होने की प्रतीक्षा में

चल रहा है

वर्तमान में संवर्धित किया जा रहा है, प्रत्येक डोमेन के अनुसार पूर्णता दर्शाने वाले विशेषज्ञता प्रगति बैज के साथ

पूर्ण

सभी मॉडल सफलतापूर्वक पूरे हुए। कार्ड स्वतः संक्षिप्त हो जाता है।

आंशिक

कुछ मॉडल या विशेषज्ञताएँ विफल हुईं। आंशिक परिणाम उपलब्ध हैं।

विफल

इस एंटिटी के लिए सभी मॉडल विफल रहे। त्रुटि विवरण दिखाया गया है।

रद्दीकरण और त्रुटि प्रबंधन

आप किसी भी समय चल रहे batch को रद्द कर सकते हैं। रद्दीकरण सहयोगात्मक है — पहले से प्रक्रिया में मौजूद entity अपना मौजूदा LLM कॉल पूरा करती हैं, लेकिन कोई नया कॉल शुरू नहीं होता। पूर्ण हुई entity के आंशिक परिणाम संरक्षित रहते हैं।

त्रुटि लचीलापन

बैच प्रोसेसिंग को लचीला बनाने के लिए डिज़ाइन किया गया है। व्यक्तिगत विफलताएँ बैच को नहीं रोकतीं:

  • यदि किसी एंटिटी के लिए वर्गीकरण विफल हो जाता है, तो एनरिचमेंट बिना संदर्भ के आगे बढ़ता है
  • यदि एक मॉडल विफल होता है, तो उस एंटिटी के अन्य मॉडल जारी रहते हैं
  • यदि किसी एंटिटी के लिए सभी मॉडल विफल हो जाते हैं, तो उसे विफल के रूप में चिह्नित किया जाता है जबकि अन्य जारी रहते हैं
  • “not found” त्रुटि लौटाने वाले मॉडल स्वतः निष्क्रिय कर दिए जाते हैं

एक्सपोर्ट फॉर्मेट

बैच पूरा होने के बाद, परिणामों को तीन फ़ॉर्मैट में एक्सपोर्ट करें। प्रत्येक एंटिटी के लिए, यदि उपलब्ध हो तो फ्यूज़न परिणाम को प्राथमिकता दी जाती है; अन्यथा, सर्वश्रेष्ठ मॉडल परिणाम का उपयोग किया जाता है।

JSON फ़ाइल

सभी एंटिटी डेटा, मॉडल आउटपुट और फ्यूज़न मेटाडेटा सहित पूरे परिणामों को एक संरचित JSON फ़ाइल के रूप में डाउनलोड करें।

क्लिपबोर्ड

JSON परिणामों को सीधे अपने क्लिपबोर्ड पर कॉपी करें ताकि उन्हें अन्य टूल या स्क्रिप्ट में पेस्ट किया जा सके।

Excel

एक तीन-शीट वर्कबुक: Results (प्रति entity एक पंक्ति, समतल की गई प्रॉपर्टीज़ के साथ), Summary (batch मेटाडेटा, models, लागतें), और Conflicts (समाधान तर्क सहित प्रति-entity विरोध विवरण)।

सीमाएँ

सीमामान
प्रति batch अधिकतम entities100
अधिकतम entity डेटा आकार50,000 अक्षर
अधिकतम prompt लंबाई100,000 वर्ण
URL फ़ेच टाइमआउट30 सेकंड

अगले चरण