मुख्य अवधारणाएँ - Entity Enricher दस्तावेज़

मुख्य अवधारणाएँ

Entity Enricher दो प्रकार के ज्ञान को संरचित, मान्य डेटा में बदल देता है: जो Large Language Models पहले से जानते हैं, और जो आपके अपने अभिलेखागार में अपठित पड़ा है — PDF दस्तावेज़, छवियाँ, ऑडियो रिकॉर्डिंग, ऑफ़िस फ़ाइलें। प्रत्येक निकाले गए ऑब्जेक्ट को एक स्थिर सिमेंटिक पहचान मिलती है, ताकि संवर्धन एक-बार के परिणामों के ढेर के बजाय एक सुसंगत सूचना प्रणाली में संचित हों।

मूल विचार

LLM को मानव ज्ञान के सार के रूप में सोचें — अरबों दस्तावेज़, डेटाबेस और वेब पेज जो क्वेरी-योग्य न्यूरल नेटवर्क में संपीड़ित होते हैं। Entity Enricher इस ज्ञान को एक संरचित, विश्वसनीय प्रारूप में निकालने का इंटरफ़ेस प्रदान करता है जो आपके डेटा मॉडल में फिट होता है। और चूँकि आधुनिक मॉडल PDF भी पढ़ सकते हैं, छवियाँ देख सकते हैं और ऑडियो सुन सकते हैं, वही इंटरफ़ेस आपकी अपनी सामग्री से भी संरचना निकालता है: वे अनुबंध, रिपोर्ट, स्कैन और रिकॉर्डिंग जिन्हें आपकी कंपनी ने वर्षों से जमा किया है।

आपका डेटा और संग्रह

आंशिक record

रॉ आइडेंटिफ़ायर्स

PDF और स्कैन

छवियाँ और ऑडियो

स्कीमा + LLM

“मैं क्या जानना चाहता हूँ?”

आपकी सूचना प्रणाली

संरचित प्रोफाइल

क्लासिफिकेशन

बहुभाषी फ़ील्ड

स्थिर सिमैंटिक ID

ज्ञान के दो स्रोत

हर संवर्धन इन दोनों में से एक या दोनों स्रोतों का उपयोग करता है। ये एक-दूसरे के पूरक हैं: मॉडल विश्व ज्ञान और तर्क प्रदान करता है; आपके दस्तावेज़ वे तथ्य प्रदान करते हैं जो केवल आपके संगठन के भीतर मौजूद हैं।

1. मॉडल का प्रशिक्षण ज्ञान

कंपनियों, दवाओं, स्थानों, उत्पादों, नियमों के बारे में सार्वजनिक तथ्य — कुछ भी जो मॉडल ने ट्रेनिंग के दौरान सीखा। इसे एक पहचानकर्ता (एक नाम, एक वेबसाइट) और एक schema दें, और यह बाकी भर देता है: इंडस्ट्री, स्थापना वर्ष, मुख्यालय, कार्यप्रणाली। किसी दस्तावेज़ की आवश्यकता नहीं।

2. आपके अनस्ट्रक्चर्ड आर्काइव

वह ज्ञान जो कभी किसी डेटाबेस तक नहीं पहुँचा: कॉन्ट्रैक्ट, इनवॉइस, इंस्पेक्शन रिपोर्ट्स, स्कैन किए गए फ़ॉर्म, प्रोडक्ट फ़ोटो, रिकॉर्ड की गई कॉल्स। इन्हें किसी एनरिचमेंट से अटैच करें और मॉडल आपके स्कीमा के फ़ील्ड्स सीधे उनके कंटेंट से एक्सट्रैक्ट करता है — कोई मैन्युअल OCR, ट्रांसक्रिप्शन, या कॉपी-पेस्ट नहीं।

समर्थित फ़ॉर्मैट और डिलीवरी मोड के लिए दस्तावेज़ अटैचमेंट देखें।

तीन स्तंभ

1. स्कीमा: ज्ञान आधार के लिए आपका प्रश्न

एक schema केवल एक डेटा संरचना नहीं है — यह एक औपचारिक प्रश्न है जो आप मानवता के सामूहिक ज्ञान से, या किसी विशिष्ट दस्तावेज़ से पूछ रहे हैं। जब आप companyName, industry, और headquarters जैसी प्रॉपर्टीज़ के साथ एक schema परिभाषित करते हैं, तो मूलतः आप पूछ रहे होते हैं: “किसी कंपनी पहचानकर्ता को देखते हुए, मुझे उसका नाम बताएं, वह किस उद्योग में काम करती है, और उसका मुख्यालय कहाँ है।”

स्कीमा कॉन्सेप्ट	उद्देश्य
प्रॉपर्टीज़	वे विशिष्ट तथ्य जिन्हें आप निकालना चाहते हैं
प्रकार	आप जिस फ़ॉर्मेट की अपेक्षा करते हैं (string, number, object, array)
विशेषज्ञता डोमेन	कौन-सा विशेषज्ञ उत्तर दे (फार्मास्युटिकल, वित्तीय, भौगोलिक)
सर्च कीज़	ऐसे पहचानकर्ता जो नॉलेज बेस में एंटिटी को खोजने में मदद करते हैं
सिमैंटिक ID	एक स्थिर, organization-स्कोप्ड पहचान ताकि वही वास्तविक-दुनिया ऑब्जेक्ट enrichments और आपके अन्य सिस्टमों में पहचाना जा सके
सुरक्षित रखें	आपके इनपुट से अपरिवर्तित पास होने वाले फ़ील्ड
बहुभाषी	आप जिस भी भाषा में काम करते हैं उसमें डिलीवर किए गए फ़ील्ड — एक फर्स्ट-क्लास फ़ीचर, न कि बाद में जोड़ा गया अनुवाद चरण

2. LLM: क्वेरी करने योग्य ज्ञान, मल्टीमॉडल रीडर

लार्ज लैंग्वेज मॉडल एक नए प्रकार के नॉलेज बेस का प्रतिनिधित्व करते हैं। संग्रहीत रिकॉर्ड पर सटीक मिलान लौटाने वाले पारंपरिक डेटाबेस के विपरीत, LLM संदर्भ को समझते हैं, अधूरे डेटा के बारे में तर्क करते हैं, और पैटर्न से सामान्यीकरण करते हैं। और वे अब केवल टेक्स्ट तक सीमित नहीं हैं: विज़न-सक्षम मॉडल छवियाँ और स्कैन किए गए पृष्ठ पढ़ते हैं, PDF-सक्षम मॉडल पूरे दस्तावेज़ों को ग्रहण करते हैं, और ऑडियो-सक्षम मॉडल रिकॉर्डिंग सुनते हैं।

Entity Enricher कई LLMs को विभिन्न ज्ञान दृष्टिकोण के रूप में मानता है। प्रत्येक प्रोवाइडर अपनी खुद की ताक़त लाता है — Claude सूक्ष्म तर्क में उत्कृष्ट है, GPT-4 के पास व्यापक ज्ञान है, Gemini बहुभाषी गहराई प्रदान करता है, और स्थानीय Ollama मॉडल आपके डेटा को निजी रखते हैं।

एक ही एनरिचमेंट को कई प्रोवाइडर के मुकाबले चलाने से आप कॉन्फिडेंस के लिए उत्तरों की तुलना कर सकते हैं, कई विशेषज्ञों की सहमति एकत्रित कर सकते हैं, और लागत बनाम गुणवत्ता को संतुलित कर सकते हैं। इसके बारे में और जानें Multi-Model Enrichment में।

3. एनरिचमेंट: संरचित ज्ञान निष्कर्षण

संवर्धन वह प्रक्रिया है जिसमें सर्च कीज़ का उपयोग करके एंटिटी की पहचान की जाती है, LLM और किसी भी संलग्न दस्तावेज़ से प्रासंगिक ज्ञान प्राप्त किया जाता है, आपके स्कीमा के अनुसार प्रतिक्रिया को संरचित किया जाता है, आउटपुट अपेक्षित प्रकारों से मेल खाता है इसकी पुष्टि की जाती है, जहाँ निर्दिष्ट हो वहाँ आपके मूल डेटा को संरक्षित किया जाता है, और अंत में पहचान का समाधान किया जाता है — हर ऑब्जेक्ट को उसकी स्थिर सिमेंटिक ID असाइन की जाती है।

इनपुट

{ "name": "Novartis", "website": "novartis.com" }

कुंजियाँ निकालें → LLM से क्वेरी करें → सत्यापित करें → पहचान हल करें

आउटपुट

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

enrichment से सूचना प्रणाली तक

हर संवर्धन स्वतंत्र है। दो बार पूछें और वही वास्तविक चीज़ अलग-अलग वर्णित होकर वापस आ सकती है — एक दिन “Acme Inc.”, अगले दिन “Acme Incorporated”; एक दवा का साइड-इफेक्ट भाषा या मॉडल के अनुसार “Headache”, “Céphalée”, या “Cephalalgia” के रूप में। संवर्धित डेटा पर सचमुच निर्माण करने के लिए, आपको उसी एंटिटी के लिए एक स्थिर हैंडल चाहिए।

एक semantic ID एक organization-scoped पहचानकर्ता है जिसे Entity Enricher किसी object को उसके key field से निर्दिष्ट करता है, जो अर्थ के आधार पर मेल खाता है, सटीक वर्तनी से नहीं। एक ही entity विभिन्न enrichment, model, भाषाओं और समय में उसी ID पर हल होती है। इसे model चलने के बाद स्वचालित रूप से निर्दिष्ट किया जाता है — कभी भी LLM द्वारा गढ़ा नहीं जाता — और यह किसी भी object पर रह सकता है: पूरी entity, एक nested object, या किसी सूची में प्रत्येक आइटम।

Enrichment रन #1

“Acme Inc.”

समान semantic ID

cpt_abc123

रन #2 — बाद में, अलग मॉडल या भाषा

“Acme Incorporated”

यही वह चीज़ है जो एनरिचमेंट की एक धारा को एक ऐसी सूचना प्रणाली में बदल देती है जिसे आप बढ़ा और क्वेरी कर सकते हैं:

उपयोग करें	यह क्या सक्षम बनाता है
Join key	आपके वेयरहाउस, CRM, या मास्टर-डेटा सिस्टम के विरुद्ध enriched records का मिलान करने के लिए एक स्थिर कुंजी
डीडुप्लिकेशन	अलग-अलग batches, models, या वर्षों के दस्तावेज़ों में बने लगभग-डुप्लिकेट को एक पहचान में संक्षिप्त करें
सामंजस्य	किसी ज्ञात semantic ID को वापस भेजें और नए तथ्य उसी entity से जुड़ जाएंगे जिसे आप पहले से ट्रैक कर रहे हैं, बजाय एक नया बनाने के
नॉलेज ग्राफ	कई records से संदर्भित objects एक ही नोड पर एकत्रित होते हैं — संबंध क्वेरी करने योग्य बन जाते हैं

रिज़ॉल्यूशन कैसे काम करता है (exact-match cache, embeddings, similarity thresholds) यह Semantic IDs में बताया गया है।

दशकों के अभिलेखों का खनन

अधिकांश कंपनियों के पास एक ऐसा आर्काइव होता है जिसे कभी संरचित नहीं किया गया: कॉन्ट्रैक्ट और रिपोर्ट के शेयर्ड ड्राइव, स्कैन किए गए कागज़, ईमेल अटैचमेंट, रिकॉर्ड की गई मीटिंग्स। वह आर्काइव एक डेटाबेस है — बस उसे कभी रो और कॉलम नहीं दिए गए। अटैचमेंट (ज्ञान स्रोत के रूप में दस्तावेज़), बैच एनरिचमेंट (समानांतर प्रोसेसिंग), और सिमेंटिक ID (पूरे कॉर्पस में डिडुप्लिकेशन) को मिलाकर यह एक डेटाबेस बन जाता है।

आर्काइव फ़ाइलें

enrichment में अटैच करें

एक्सट्रैक्शन प्रश्न के रूप में स्कीमा

सत्यापित संरचित records

सिमैंटिक पहचान और डीडुप

आपका डेटाबेस

बड़े पैमाने पर बैच — एंटिटीज़ को समानांतर में एनरिच किया जाता है, लाइव प्रति-एंटिटी प्रगति, पहले से लागत अनुमान, और विफल होने वाले कुछ के लिए चयनात्मक रीट्राई के साथ
सुरक्षित निष्कर्षण — प्री-फ़्लाइट क्लासिफिकेशन और स्कीमा सत्यापन गलत तरीके से दायर दस्तावेज़ को आपके रिकॉर्ड को आत्मविश्वासपूर्ण बकवास से दूषित करने से रोकते हैं
अभिसारी पहचान — 2009 के अनुबंध और 2024 के इनवॉइस में दिखने वाला एक ही आपूर्तिकर्ता एक ही सिमेंटिक ID में रिज़ॉल्व होता है, इसलिए आर्काइव साफ़ मास्टर डेटा में सिमट जाता है
API के माध्यम से बाहर — परिणाम मान्य JSON के रूप में एक्सपोर्ट होते हैं या REST API और कनेक्टर्स (n8n, Make, MCP) के माध्यम से सीधे आपके सिस्टम में प्रवाहित होते हैं

वर्कफ़्लो के विस्तृत विवरण के लिए बैच संवर्धन देखें।

टेक्स्ट से परे: मल्टीमॉडल स्रोत

संरचित ज्ञान केवल टेक्स्ट में नहीं रहता। Entity Enricher उन फॉर्मैट्स को स्वीकार करता है जो वास्तव में आपके आर्काइव में मौजूद हैं और हर एक को उसे पढ़ने में सक्षम मॉडलों तक रूट करता है।

PDF दस्तावेज़

लेआउट, टेबल और आकृतियों सहित पूरे दस्तावेज़ — PDF-सक्षम मॉडल द्वारा नेटिव रूप से पढ़े जाते हैं

छवियाँ

फ़ोटो, स्कैन, डायग्राम, प्रोडक्ट शॉट — विज़न model द्वारा व्याख्या किए गए, कोई अलग OCR चरण नहीं

ऑडियो

रिकॉर्ड की गई कॉल, मीटिंग और वॉइस नोट्स — ऑडियो-सक्षम मॉडलों द्वारा सीधे सुने गए

ऑफ़िस और टेक्स्ट

Word, Excel, PowerPoint, HTML, CSV, Markdown — टेक्स्ट सर्वर-साइड निकाला और इनलाइन किया गया

दो डिलीवरी मोड इसे संभव बनाते हैं। बाइनरी मोड में, मूल बाइट्स मॉडल तक जाते हैं ताकि रूपांतरण में कुछ भी न खोए — किसी टेबल का लेआउट, किसी फ़ोटो का विवरण, किसी वक्ता के शब्द। इनलाइन-टेक्स्ट मोड में, टेक्स्ट को अपलोड के समय एक बार निकाला जाता है और हर प्रॉम्प्ट में इनलाइन किया जाता है, जो किसी भी मॉडल के साथ उसकी क्षमताओं की परवाह किए बिना काम करता है।

क्षमता-सजग रूटिंग का अर्थ है कि कोई फ़ाइल केवल उन्हीं मॉडलों तक पहुँचती है जो वास्तव में उसे प्रोसेस कर सकते हैं — आपको एनरिचमेंट शुरू होने से पहले चेतावनी मिलती है, विफल होने के बाद नहीं। फ़ॉर्मैट और मोड Document Attachments में विस्तार से दिए गए हैं।

विशेषज्ञता डोमेन: सही विशेषज्ञ से परामर्श

हर ज्ञान समान नहीं होता। दवा की क्रियाविधि के बारे में प्रश्न के लिए कॉर्पोरेट संरचना के प्रश्न से अलग विशेषज्ञता चाहिए। विशेषज्ञता डोमेन स्कीमा प्रॉपर्टीज़ को LLM के भीतर सही विशेषज्ञ तक रूट करते हैं, और प्रत्येक डोमेन के लिए प्रासंगिक ज्ञान पैटर्न सक्रिय करते हैं।

pharmaceutical

ड्रग नाम, तंत्र, संकेत, नियामक स्थिति

business_classification

उद्योग कोड, कंपनी प्रकार, मार्केट सेगमेंट

geographic

स्थान, क्षेत्र, देश-विशिष्ट जानकारी

financial

राजस्व, मार्केट कैप, फंडिंग राउंड

temporal

तारीखें, अवधियाँ, ऐतिहासिक घटनाएँ

regulatory

अनुमोदन, लाइसेंस, अनुपालन स्थिति

मल्टी-विशेषज्ञता रणनीति का उपयोग करते समय, प्रत्येक डोमेन को केवल संबंधित स्कीमा प्रॉपर्टीज़ के साथ अपनी केंद्रित LLM कॉल मिलती है, जिससे आउटपुट गुणवत्ता काफ़ी बेहतर होती है।

क्वालिटी नियंत्रण

सत्यापन और स्व-सुधार

LLM गलतियाँ कर सकते हैं। Entity Enricher त्रुटियों को स्वचालित रूप से पकड़ने और ठीक करने के लिए गुणवत्ता नियंत्रण की कई परतें लागू करता है:

टाइप वैलिडेशन — सुनिश्चित करता है कि आउटपुट स्कीमा टाइप्स (string, number, boolean, आदि) से मेल खाता है
विशेषज्ञता सत्यापन — सत्यापित करता है कि सभी विशेषज्ञता डोमेन परिभाषित हैं और उनमें प्रॉपर्टीज़ हैं
सेल्फ-करेक्शन — जब मान्यता विफल हो जाती है, तो स्वचालित सुधार के लिए त्रुटियाँ LLM को वापस भेजी जाती हैं (5 पुनः प्रयास तक)
प्रिज़र्व लॉजिक — संरक्षित फ़ील्ड्स के मूल मान एनरिचमेंट के बाद पुनर्स्थापित किए जाते हैं, जिससे डेटा अखंडता सुनिश्चित होती है

सर्च कीज़: संवर्धन के दौरान पहचान को स्थिर करना

सर्च कीज़ LLM को गलत एंटिटी के बारे में मतिभ्रम करने से रोकती हैं। ये दो भूमिकाएँ निभाती हैं:

सर्च की (नाम, वेबसाइट) — लुकअप पहचानकर्ता जो LLM को सही एंटिटी खोजने में मदद करते हैं
मर्ज कुंजियाँ (arrays में product_name) — कई मॉडल से परिणाम मर्ज करते समय array आइटम का मिलान करने के लिए डिडुप्लीकेशन कुंजियाँ

एनरिचमेंट प्रॉम्प्ट पर ज़ोर देता है: “आप इन सर्च कुंजियों द्वारा पहचानी गई इस विशिष्ट एंटिटी को एनरिच कर रहे हैं।”

सर्च कीज़ और सिमेंटिक IDs पहचान के दो पहलू हैं: सर्च कीज़ LLM को संवर्धन के दौरान सही एंटिटी ढूँढने में मदद करती हैं; सिमेंटिक IDs इसे एक स्थायी पहचान देती हैं जिस पर आपके सिस्टम संवर्धन के बाद निर्भर करते हैं।

प्री-फ्लाइट क्लासिफिकेशन

एनरिचमेंट शुरू होने से पहले, एक वैकल्पिक प्री-फ्लाइट क्लासिफिकेशन चरण यह सत्यापित कर सकता है कि एंटिटी वास्तव में स्कीमा टाइप से मेल खाती है। यह तब हैलुसिनेशन को रोकता है जब एंटिटीज़ मेल नहीं खातीं — उदाहरण के लिए, “Planet” स्कीमा के विरुद्ध “Titan” को एनरिच करना जबकि Titan वास्तव में एक चंद्रमा है।

लागत जागरूकता

LLM कॉल की लागत होती है। Entity Enricher टोकन उपयोग, प्रति प्रोवाइडर लागत, प्रति एनरिचमेंट लागत और ऑर्गनाइज़ेशन-स्कोप्ड खर्च को ट्रैक करता है। इससे बजट मॉनिटरिंग, प्रोवाइडर तुलना (लागत बनाम गुणवत्ता), और सरल फ़ील्ड के लिए सस्ते मॉडल इस्तेमाल करने जैसे ऑप्टिमाइज़ेशन निर्णय संभव होते हैं — जो हज़ारों दस्तावेज़ों के आर्काइव को प्रोसेस करते समय सबसे अधिक मायने रखते हैं।

सारांश

कंपोनेंट	वैचारिक भूमिका
स्कीमा	आप जो प्रश्न पूछ रहे हैं
LLM प्रोवाइडर	विभिन्न ज्ञान दृष्टिकोण
अटैचमेंट	ज्ञान स्रोत के रूप में आपके संग्रह (PDF, इमेज, ऑडियो, ऑफिस)
सर्च कीज़	enrichment के दौरान entity पहचान एंकर
सिमैंटिक ID	संवर्धन के बाद स्थिर पहचान — आपके सूचना तंत्र की रीढ़
विशेषज्ञता डोमेन	विशेषज्ञ रूटिंग
रणनीतियाँ	LLM कॉल्स को कैसे ऑर्केस्ट्रेट करें
बैच प्रोसेसिंग	आर्काइव स्केल पर समानांतर एनरिचमेंट
बहुभाषी	आप जिन सभी भाषाओं में काम करते हैं, उनमें एक ही तथ्य
सत्यापन	क्वालिटी एश्योरेंस
सुरक्षित रखें	डेटा अखंडता सुरक्षा

अगले चरण

संवर्धन प्रवाह

संवर्धन पाइपलाइन का चरण-दर-चरण विवरण

सिमैंटिक ID

डिडुप्लीकेशन और इंटरऑपरेबिलिटी के लिए स्थिर एंटिटी पहचान

दस्तावेज़ अटैचमेंट

enrichment स्रोत के रूप में PDF, इमेज, ऑडियो और ऑफिस फ़ाइलें

बैच एनरिचमेंट

सूचियों और आर्काइव के लिए समानांतर प्रोसेसिंग

Enrichment रणनीतियाँ

single-pass बनाम multi-expertise दृष्टिकोणों की तुलना करें

मल्टी-मॉडल फ्यूज़न

मॉडलों के बीच कॉन्फ्लिक्ट डिटेक्शन और समाधान