Entity Enricher दो प्रकार के ज्ञान को संरचित, मान्य डेटा में बदल देता है: जो Large Language Models पहले से जानते हैं, और जो आपके अपने अभिलेखागार में अपठित पड़ा है — PDF दस्तावेज़, छवियाँ, ऑडियो रिकॉर्डिंग, ऑफ़िस फ़ाइलें। प्रत्येक निकाले गए ऑब्जेक्ट को एक स्थिर सिमेंटिक पहचान मिलती है, ताकि संवर्धन एक-बार के परिणामों के ढेर के बजाय एक सुसंगत सूचना प्रणाली में संचित हों।
LLM को मानव ज्ञान के सार के रूप में सोचें — अरबों दस्तावेज़, डेटाबेस और वेब पेज जो क्वेरी-योग्य न्यूरल नेटवर्क में संपीड़ित होते हैं। Entity Enricher इस ज्ञान को एक संरचित, विश्वसनीय प्रारूप में निकालने का इंटरफ़ेस प्रदान करता है जो आपके डेटा मॉडल में फिट होता है। और चूँकि आधुनिक मॉडल PDF भी पढ़ सकते हैं, छवियाँ देख सकते हैं और ऑडियो सुन सकते हैं, वही इंटरफ़ेस आपकी अपनी सामग्री से भी संरचना निकालता है: वे अनुबंध, रिपोर्ट, स्कैन और रिकॉर्डिंग जिन्हें आपकी कंपनी ने वर्षों से जमा किया है।
हर संवर्धन इन दोनों में से एक या दोनों स्रोतों का उपयोग करता है। ये एक-दूसरे के पूरक हैं: मॉडल विश्व ज्ञान और तर्क प्रदान करता है; आपके दस्तावेज़ वे तथ्य प्रदान करते हैं जो केवल आपके संगठन के भीतर मौजूद हैं।
कंपनियों, दवाओं, स्थानों, उत्पादों, नियमों के बारे में सार्वजनिक तथ्य — कुछ भी जो मॉडल ने ट्रेनिंग के दौरान सीखा। इसे एक पहचानकर्ता (एक नाम, एक वेबसाइट) और एक schema दें, और यह बाकी भर देता है: इंडस्ट्री, स्थापना वर्ष, मुख्यालय, कार्यप्रणाली। किसी दस्तावेज़ की आवश्यकता नहीं।
वह ज्ञान जो कभी किसी डेटाबेस तक नहीं पहुँचा: कॉन्ट्रैक्ट, इनवॉइस, इंस्पेक्शन रिपोर्ट्स, स्कैन किए गए फ़ॉर्म, प्रोडक्ट फ़ोटो, रिकॉर्ड की गई कॉल्स। इन्हें किसी एनरिचमेंट से अटैच करें और मॉडल आपके स्कीमा के फ़ील्ड्स सीधे उनके कंटेंट से एक्सट्रैक्ट करता है — कोई मैन्युअल OCR, ट्रांसक्रिप्शन, या कॉपी-पेस्ट नहीं।
समर्थित फ़ॉर्मैट और डिलीवरी मोड के लिए दस्तावेज़ अटैचमेंट देखें।
एक schema केवल एक डेटा संरचना नहीं है — यह एक औपचारिक प्रश्न है जो आप मानवता के सामूहिक ज्ञान से, या किसी विशिष्ट दस्तावेज़ से पूछ रहे हैं। जब आप companyName, industry, और headquarters जैसी प्रॉपर्टीज़ के साथ एक schema परिभाषित करते हैं, तो मूलतः आप पूछ रहे होते हैं: “किसी कंपनी पहचानकर्ता को देखते हुए, मुझे उसका नाम बताएं, वह किस उद्योग में काम करती है, और उसका मुख्यालय कहाँ है।”
| स्कीमा कॉन्सेप्ट | उद्देश्य |
|---|---|
| प्रॉपर्टीज़ | वे विशिष्ट तथ्य जिन्हें आप निकालना चाहते हैं |
| प्रकार | आप जिस फ़ॉर्मेट की अपेक्षा करते हैं (string, number, object, array) |
| विशेषज्ञता डोमेन | कौन-सा विशेषज्ञ उत्तर दे (फार्मास्युटिकल, वित्तीय, भौगोलिक) |
| सर्च कीज़ | ऐसे पहचानकर्ता जो नॉलेज बेस में एंटिटी को खोजने में मदद करते हैं |
| सिमैंटिक ID | एक स्थिर, organization-स्कोप्ड पहचान ताकि वही वास्तविक-दुनिया ऑब्जेक्ट enrichments और आपके अन्य सिस्टमों में पहचाना जा सके |
| सुरक्षित रखें | आपके इनपुट से अपरिवर्तित पास होने वाले फ़ील्ड |
| बहुभाषी | आप जिस भी भाषा में काम करते हैं उसमें डिलीवर किए गए फ़ील्ड — एक फर्स्ट-क्लास फ़ीचर, न कि बाद में जोड़ा गया अनुवाद चरण |
लार्ज लैंग्वेज मॉडल एक नए प्रकार के नॉलेज बेस का प्रतिनिधित्व करते हैं। संग्रहीत रिकॉर्ड पर सटीक मिलान लौटाने वाले पारंपरिक डेटाबेस के विपरीत, LLM संदर्भ को समझते हैं, अधूरे डेटा के बारे में तर्क करते हैं, और पैटर्न से सामान्यीकरण करते हैं। और वे अब केवल टेक्स्ट तक सीमित नहीं हैं: विज़न-सक्षम मॉडल छवियाँ और स्कैन किए गए पृष्ठ पढ़ते हैं, PDF-सक्षम मॉडल पूरे दस्तावेज़ों को ग्रहण करते हैं, और ऑडियो-सक्षम मॉडल रिकॉर्डिंग सुनते हैं।
Entity Enricher कई LLMs को विभिन्न ज्ञान दृष्टिकोण के रूप में मानता है। प्रत्येक प्रोवाइडर अपनी खुद की ताक़त लाता है — Claude सूक्ष्म तर्क में उत्कृष्ट है, GPT-4 के पास व्यापक ज्ञान है, Gemini बहुभाषी गहराई प्रदान करता है, और स्थानीय Ollama मॉडल आपके डेटा को निजी रखते हैं।
एक ही एनरिचमेंट को कई प्रोवाइडर के मुकाबले चलाने से आप कॉन्फिडेंस के लिए उत्तरों की तुलना कर सकते हैं, कई विशेषज्ञों की सहमति एकत्रित कर सकते हैं, और लागत बनाम गुणवत्ता को संतुलित कर सकते हैं। इसके बारे में और जानें Multi-Model Enrichment में।
संवर्धन वह प्रक्रिया है जिसमें सर्च कीज़ का उपयोग करके एंटिटी की पहचान की जाती है, LLM और किसी भी संलग्न दस्तावेज़ से प्रासंगिक ज्ञान प्राप्त किया जाता है, आपके स्कीमा के अनुसार प्रतिक्रिया को संरचित किया जाता है, आउटपुट अपेक्षित प्रकारों से मेल खाता है इसकी पुष्टि की जाती है, जहाँ निर्दिष्ट हो वहाँ आपके मूल डेटा को संरक्षित किया जाता है, और अंत में पहचान का समाधान किया जाता है — हर ऑब्जेक्ट को उसकी स्थिर सिमेंटिक ID असाइन की जाती है।
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }हर संवर्धन स्वतंत्र है। दो बार पूछें और वही वास्तविक चीज़ अलग-अलग वर्णित होकर वापस आ सकती है — एक दिन “Acme Inc.”, अगले दिन “Acme Incorporated”; एक दवा का साइड-इफेक्ट भाषा या मॉडल के अनुसार “Headache”, “Céphalée”, या “Cephalalgia” के रूप में। संवर्धित डेटा पर सचमुच निर्माण करने के लिए, आपको उसी एंटिटी के लिए एक स्थिर हैंडल चाहिए।
एक semantic ID एक organization-scoped पहचानकर्ता है जिसे Entity Enricher किसी object को उसके key field से निर्दिष्ट करता है, जो अर्थ के आधार पर मेल खाता है, सटीक वर्तनी से नहीं। एक ही entity विभिन्न enrichment, model, भाषाओं और समय में उसी ID पर हल होती है। इसे model चलने के बाद स्वचालित रूप से निर्दिष्ट किया जाता है — कभी भी LLM द्वारा गढ़ा नहीं जाता — और यह किसी भी object पर रह सकता है: पूरी entity, एक nested object, या किसी सूची में प्रत्येक आइटम।
cpt_abc123यही वह चीज़ है जो एनरिचमेंट की एक धारा को एक ऐसी सूचना प्रणाली में बदल देती है जिसे आप बढ़ा और क्वेरी कर सकते हैं:
| उपयोग करें | यह क्या सक्षम बनाता है |
|---|---|
| Join key | आपके वेयरहाउस, CRM, या मास्टर-डेटा सिस्टम के विरुद्ध enriched records का मिलान करने के लिए एक स्थिर कुंजी |
| डीडुप्लिकेशन | अलग-अलग batches, models, या वर्षों के दस्तावेज़ों में बने लगभग-डुप्लिकेट को एक पहचान में संक्षिप्त करें |
| सामंजस्य | किसी ज्ञात semantic ID को वापस भेजें और नए तथ्य उसी entity से जुड़ जाएंगे जिसे आप पहले से ट्रैक कर रहे हैं, बजाय एक नया बनाने के |
| नॉलेज ग्राफ | कई records से संदर्भित objects एक ही नोड पर एकत्रित होते हैं — संबंध क्वेरी करने योग्य बन जाते हैं |
रिज़ॉल्यूशन कैसे काम करता है (exact-match cache, embeddings, similarity thresholds) यह Semantic IDs में बताया गया है।
अधिकांश कंपनियों के पास एक ऐसा आर्काइव होता है जिसे कभी संरचित नहीं किया गया: कॉन्ट्रैक्ट और रिपोर्ट के शेयर्ड ड्राइव, स्कैन किए गए कागज़, ईमेल अटैचमेंट, रिकॉर्ड की गई मीटिंग्स। वह आर्काइव एक डेटाबेस है — बस उसे कभी रो और कॉलम नहीं दिए गए। अटैचमेंट (ज्ञान स्रोत के रूप में दस्तावेज़), बैच एनरिचमेंट (समानांतर प्रोसेसिंग), और सिमेंटिक ID (पूरे कॉर्पस में डिडुप्लिकेशन) को मिलाकर यह एक डेटाबेस बन जाता है।
वर्कफ़्लो के विस्तृत विवरण के लिए बैच संवर्धन देखें।
संरचित ज्ञान केवल टेक्स्ट में नहीं रहता। Entity Enricher उन फॉर्मैट्स को स्वीकार करता है जो वास्तव में आपके आर्काइव में मौजूद हैं और हर एक को उसे पढ़ने में सक्षम मॉडलों तक रूट करता है।
दो डिलीवरी मोड इसे संभव बनाते हैं। बाइनरी मोड में, मूल बाइट्स मॉडल तक जाते हैं ताकि रूपांतरण में कुछ भी न खोए — किसी टेबल का लेआउट, किसी फ़ोटो का विवरण, किसी वक्ता के शब्द। इनलाइन-टेक्स्ट मोड में, टेक्स्ट को अपलोड के समय एक बार निकाला जाता है और हर प्रॉम्प्ट में इनलाइन किया जाता है, जो किसी भी मॉडल के साथ उसकी क्षमताओं की परवाह किए बिना काम करता है।
क्षमता-सजग रूटिंग का अर्थ है कि कोई फ़ाइल केवल उन्हीं मॉडलों तक पहुँचती है जो वास्तव में उसे प्रोसेस कर सकते हैं — आपको एनरिचमेंट शुरू होने से पहले चेतावनी मिलती है, विफल होने के बाद नहीं। फ़ॉर्मैट और मोड Document Attachments में विस्तार से दिए गए हैं।
हर ज्ञान समान नहीं होता। दवा की क्रियाविधि के बारे में प्रश्न के लिए कॉर्पोरेट संरचना के प्रश्न से अलग विशेषज्ञता चाहिए। विशेषज्ञता डोमेन स्कीमा प्रॉपर्टीज़ को LLM के भीतर सही विशेषज्ञ तक रूट करते हैं, और प्रत्येक डोमेन के लिए प्रासंगिक ज्ञान पैटर्न सक्रिय करते हैं।
मल्टी-विशेषज्ञता रणनीति का उपयोग करते समय, प्रत्येक डोमेन को केवल संबंधित स्कीमा प्रॉपर्टीज़ के साथ अपनी केंद्रित LLM कॉल मिलती है, जिससे आउटपुट गुणवत्ता काफ़ी बेहतर होती है।
LLM गलतियाँ कर सकते हैं। Entity Enricher त्रुटियों को स्वचालित रूप से पकड़ने और ठीक करने के लिए गुणवत्ता नियंत्रण की कई परतें लागू करता है:
सर्च कीज़ LLM को गलत एंटिटी के बारे में मतिभ्रम करने से रोकती हैं। ये दो भूमिकाएँ निभाती हैं:
एनरिचमेंट प्रॉम्प्ट पर ज़ोर देता है: “आप इन सर्च कुंजियों द्वारा पहचानी गई इस विशिष्ट एंटिटी को एनरिच कर रहे हैं।”
सर्च कीज़ और सिमेंटिक IDs पहचान के दो पहलू हैं: सर्च कीज़ LLM को संवर्धन के दौरान सही एंटिटी ढूँढने में मदद करती हैं; सिमेंटिक IDs इसे एक स्थायी पहचान देती हैं जिस पर आपके सिस्टम संवर्धन के बाद निर्भर करते हैं।
एनरिचमेंट शुरू होने से पहले, एक वैकल्पिक प्री-फ्लाइट क्लासिफिकेशन चरण यह सत्यापित कर सकता है कि एंटिटी वास्तव में स्कीमा टाइप से मेल खाती है। यह तब हैलुसिनेशन को रोकता है जब एंटिटीज़ मेल नहीं खातीं — उदाहरण के लिए, “Planet” स्कीमा के विरुद्ध “Titan” को एनरिच करना जबकि Titan वास्तव में एक चंद्रमा है।
LLM कॉल की लागत होती है। Entity Enricher टोकन उपयोग, प्रति प्रोवाइडर लागत, प्रति एनरिचमेंट लागत और ऑर्गनाइज़ेशन-स्कोप्ड खर्च को ट्रैक करता है। इससे बजट मॉनिटरिंग, प्रोवाइडर तुलना (लागत बनाम गुणवत्ता), और सरल फ़ील्ड के लिए सस्ते मॉडल इस्तेमाल करने जैसे ऑप्टिमाइज़ेशन निर्णय संभव होते हैं — जो हज़ारों दस्तावेज़ों के आर्काइव को प्रोसेस करते समय सबसे अधिक मायने रखते हैं।
| कंपोनेंट | वैचारिक भूमिका |
|---|---|
| स्कीमा | आप जो प्रश्न पूछ रहे हैं |
| LLM प्रोवाइडर | विभिन्न ज्ञान दृष्टिकोण |
| अटैचमेंट | ज्ञान स्रोत के रूप में आपके संग्रह (PDF, इमेज, ऑडियो, ऑफिस) |
| सर्च कीज़ | enrichment के दौरान entity पहचान एंकर |
| सिमैंटिक ID | संवर्धन के बाद स्थिर पहचान — आपके सूचना तंत्र की रीढ़ |
| विशेषज्ञता डोमेन | विशेषज्ञ रूटिंग |
| रणनीतियाँ | LLM कॉल्स को कैसे ऑर्केस्ट्रेट करें |
| बैच प्रोसेसिंग | आर्काइव स्केल पर समानांतर एनरिचमेंट |
| बहुभाषी | आप जिन सभी भाषाओं में काम करते हैं, उनमें एक ही तथ्य |
| सत्यापन | क्वालिटी एश्योरेंस |
| सुरक्षित रखें | डेटा अखंडता सुरक्षा |