मुख्य अवधारणाएँ - Entity Enricher दस्तावेज़

मुख्य अवधारणाएँ

Entity Enricher दो प्रकार के ज्ञान को संरचित, मान्य डेटा में बदल देता है: जो Large Language Models पहले से जानते हैं, और जो आपके अपने अभिलेखागार में अपठित पड़ा है — PDF दस्तावेज़, छवियाँ, ऑडियो रिकॉर्डिंग, ऑफ़िस फ़ाइलें। प्रत्येक निकाले गए ऑब्जेक्ट को एक स्थिर सिमेंटिक पहचान मिलती है, ताकि संवर्धन एक-बार के परिणामों के ढेर के बजाय एक सुसंगत सूचना प्रणाली में संचित हों।

मूल विचार

LLM को मानव ज्ञान के सार के रूप में सोचें — अरबों दस्तावेज़, डेटाबेस और वेब पेज जो क्वेरी-योग्य न्यूरल नेटवर्क में संपीड़ित होते हैं। Entity Enricher इस ज्ञान को एक संरचित, विश्वसनीय प्रारूप में निकालने का इंटरफ़ेस प्रदान करता है जो आपके डेटा मॉडल में फिट होता है। और चूँकि आधुनिक मॉडल PDF भी पढ़ सकते हैं, छवियाँ देख सकते हैं और ऑडियो सुन सकते हैं, वही इंटरफ़ेस आपकी अपनी सामग्री से भी संरचना निकालता है: वे अनुबंध, रिपोर्ट, स्कैन और रिकॉर्डिंग जिन्हें आपकी कंपनी ने वर्षों से जमा किया है।

आपका डेटा और संग्रह
आंशिक record
रॉ आइडेंटिफ़ायर्स
PDF और स्कैन
छवियाँ और ऑडियो
स्कीमा + LLM
“मैं क्या जानना चाहता हूँ?”
आपकी सूचना प्रणाली
संरचित प्रोफाइल
क्लासिफिकेशन
बहुभाषी फ़ील्ड
स्थिर सिमैंटिक ID

ज्ञान के दो स्रोत

हर संवर्धन इन दोनों में से एक या दोनों स्रोतों का उपयोग करता है। ये एक-दूसरे के पूरक हैं: मॉडल विश्व ज्ञान और तर्क प्रदान करता है; आपके दस्तावेज़ वे तथ्य प्रदान करते हैं जो केवल आपके संगठन के भीतर मौजूद हैं।

1. मॉडल का प्रशिक्षण ज्ञान

कंपनियों, दवाओं, स्थानों, उत्पादों, नियमों के बारे में सार्वजनिक तथ्य — कुछ भी जो मॉडल ने ट्रेनिंग के दौरान सीखा। इसे एक पहचानकर्ता (एक नाम, एक वेबसाइट) और एक schema दें, और यह बाकी भर देता है: इंडस्ट्री, स्थापना वर्ष, मुख्यालय, कार्यप्रणाली। किसी दस्तावेज़ की आवश्यकता नहीं।

2. आपके अनस्ट्रक्चर्ड आर्काइव

वह ज्ञान जो कभी किसी डेटाबेस तक नहीं पहुँचा: कॉन्ट्रैक्ट, इनवॉइस, इंस्पेक्शन रिपोर्ट्स, स्कैन किए गए फ़ॉर्म, प्रोडक्ट फ़ोटो, रिकॉर्ड की गई कॉल्स। इन्हें किसी एनरिचमेंट से अटैच करें और मॉडल आपके स्कीमा के फ़ील्ड्स सीधे उनके कंटेंट से एक्सट्रैक्ट करता है — कोई मैन्युअल OCR, ट्रांसक्रिप्शन, या कॉपी-पेस्ट नहीं।

समर्थित फ़ॉर्मैट और डिलीवरी मोड के लिए दस्तावेज़ अटैचमेंट देखें।

तीन स्तंभ

1. स्कीमा: ज्ञान आधार के लिए आपका प्रश्न

एक schema केवल एक डेटा संरचना नहीं है — यह एक औपचारिक प्रश्न है जो आप मानवता के सामूहिक ज्ञान से, या किसी विशिष्ट दस्तावेज़ से पूछ रहे हैं। जब आप companyName, industry, और headquarters जैसी प्रॉपर्टीज़ के साथ एक schema परिभाषित करते हैं, तो मूलतः आप पूछ रहे होते हैं: “किसी कंपनी पहचानकर्ता को देखते हुए, मुझे उसका नाम बताएं, वह किस उद्योग में काम करती है, और उसका मुख्यालय कहाँ है।”

स्कीमा कॉन्सेप्टउद्देश्य
प्रॉपर्टीज़वे विशिष्ट तथ्य जिन्हें आप निकालना चाहते हैं
प्रकारआप जिस फ़ॉर्मेट की अपेक्षा करते हैं (string, number, object, array)
विशेषज्ञता डोमेनकौन-सा विशेषज्ञ उत्तर दे (फार्मास्युटिकल, वित्तीय, भौगोलिक)
सर्च कीज़ऐसे पहचानकर्ता जो नॉलेज बेस में एंटिटी को खोजने में मदद करते हैं
सिमैंटिक IDएक स्थिर, organization-स्कोप्ड पहचान ताकि वही वास्तविक-दुनिया ऑब्जेक्ट enrichments और आपके अन्य सिस्टमों में पहचाना जा सके
सुरक्षित रखेंआपके इनपुट से अपरिवर्तित पास होने वाले फ़ील्ड
बहुभाषीआप जिस भी भाषा में काम करते हैं उसमें डिलीवर किए गए फ़ील्ड — एक फर्स्ट-क्लास फ़ीचर, न कि बाद में जोड़ा गया अनुवाद चरण

2. LLM: क्वेरी करने योग्य ज्ञान, मल्टीमॉडल रीडर

लार्ज लैंग्वेज मॉडल एक नए प्रकार के नॉलेज बेस का प्रतिनिधित्व करते हैं। संग्रहीत रिकॉर्ड पर सटीक मिलान लौटाने वाले पारंपरिक डेटाबेस के विपरीत, LLM संदर्भ को समझते हैं, अधूरे डेटा के बारे में तर्क करते हैं, और पैटर्न से सामान्यीकरण करते हैं। और वे अब केवल टेक्स्ट तक सीमित नहीं हैं: विज़न-सक्षम मॉडल छवियाँ और स्कैन किए गए पृष्ठ पढ़ते हैं, PDF-सक्षम मॉडल पूरे दस्तावेज़ों को ग्रहण करते हैं, और ऑडियो-सक्षम मॉडल रिकॉर्डिंग सुनते हैं।

Entity Enricher कई LLMs को विभिन्न ज्ञान दृष्टिकोण के रूप में मानता है। प्रत्येक प्रोवाइडर अपनी खुद की ताक़त लाता है — Claude सूक्ष्म तर्क में उत्कृष्ट है, GPT-4 के पास व्यापक ज्ञान है, Gemini बहुभाषी गहराई प्रदान करता है, और स्थानीय Ollama मॉडल आपके डेटा को निजी रखते हैं।

एक ही एनरिचमेंट को कई प्रोवाइडर के मुकाबले चलाने से आप कॉन्फिडेंस के लिए उत्तरों की तुलना कर सकते हैं, कई विशेषज्ञों की सहमति एकत्रित कर सकते हैं, और लागत बनाम गुणवत्ता को संतुलित कर सकते हैं। इसके बारे में और जानें Multi-Model Enrichment में।

3. एनरिचमेंट: संरचित ज्ञान निष्कर्षण

संवर्धन वह प्रक्रिया है जिसमें सर्च कीज़ का उपयोग करके एंटिटी की पहचान की जाती है, LLM और किसी भी संलग्न दस्तावेज़ से प्रासंगिक ज्ञान प्राप्त किया जाता है, आपके स्कीमा के अनुसार प्रतिक्रिया को संरचित किया जाता है, आउटपुट अपेक्षित प्रकारों से मेल खाता है इसकी पुष्टि की जाती है, जहाँ निर्दिष्ट हो वहाँ आपके मूल डेटा को संरक्षित किया जाता है, और अंत में पहचान का समाधान किया जाता है — हर ऑब्जेक्ट को उसकी स्थिर सिमेंटिक ID असाइन की जाती है।

इनपुट
{ "name": "Novartis", "website": "novartis.com" }
कुंजियाँ निकालें → LLM से क्वेरी करें → सत्यापित करें → पहचान हल करें
आउटपुट
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

enrichment से सूचना प्रणाली तक

हर संवर्धन स्वतंत्र है। दो बार पूछें और वही वास्तविक चीज़ अलग-अलग वर्णित होकर वापस आ सकती है — एक दिन “Acme Inc.”, अगले दिन “Acme Incorporated”; एक दवा का साइड-इफेक्ट भाषा या मॉडल के अनुसार “Headache”, “Céphalée”, या “Cephalalgia” के रूप में। संवर्धित डेटा पर सचमुच निर्माण करने के लिए, आपको उसी एंटिटी के लिए एक स्थिर हैंडल चाहिए।

एक semantic ID एक organization-scoped पहचानकर्ता है जिसे Entity Enricher किसी object को उसके key field से निर्दिष्ट करता है, जो अर्थ के आधार पर मेल खाता है, सटीक वर्तनी से नहीं। एक ही entity विभिन्न enrichment, model, भाषाओं और समय में उसी ID पर हल होती है। इसे model चलने के बाद स्वचालित रूप से निर्दिष्ट किया जाता है — कभी भी LLM द्वारा गढ़ा नहीं जाता — और यह किसी भी object पर रह सकता है: पूरी entity, एक nested object, या किसी सूची में प्रत्येक आइटम।

Enrichment रन #1
“Acme Inc.”
समान semantic ID
cpt_abc123
रन #2 — बाद में, अलग मॉडल या भाषा
“Acme Incorporated”

यही वह चीज़ है जो एनरिचमेंट की एक धारा को एक ऐसी सूचना प्रणाली में बदल देती है जिसे आप बढ़ा और क्वेरी कर सकते हैं:

उपयोग करेंयह क्या सक्षम बनाता है
Join keyआपके वेयरहाउस, CRM, या मास्टर-डेटा सिस्टम के विरुद्ध enriched records का मिलान करने के लिए एक स्थिर कुंजी
डीडुप्लिकेशनअलग-अलग batches, models, या वर्षों के दस्तावेज़ों में बने लगभग-डुप्लिकेट को एक पहचान में संक्षिप्त करें
सामंजस्यकिसी ज्ञात semantic ID को वापस भेजें और नए तथ्य उसी entity से जुड़ जाएंगे जिसे आप पहले से ट्रैक कर रहे हैं, बजाय एक नया बनाने के
नॉलेज ग्राफकई records से संदर्भित objects एक ही नोड पर एकत्रित होते हैं — संबंध क्वेरी करने योग्य बन जाते हैं

रिज़ॉल्यूशन कैसे काम करता है (exact-match cache, embeddings, similarity thresholds) यह Semantic IDs में बताया गया है।

दशकों के अभिलेखों का खनन

अधिकांश कंपनियों के पास एक ऐसा आर्काइव होता है जिसे कभी संरचित नहीं किया गया: कॉन्ट्रैक्ट और रिपोर्ट के शेयर्ड ड्राइव, स्कैन किए गए कागज़, ईमेल अटैचमेंट, रिकॉर्ड की गई मीटिंग्स। वह आर्काइव एक डेटाबेस है — बस उसे कभी रो और कॉलम नहीं दिए गए। अटैचमेंट (ज्ञान स्रोत के रूप में दस्तावेज़), बैच एनरिचमेंट (समानांतर प्रोसेसिंग), और सिमेंटिक ID (पूरे कॉर्पस में डिडुप्लिकेशन) को मिलाकर यह एक डेटाबेस बन जाता है।

आर्काइव फ़ाइलें
enrichment में अटैच करें
एक्सट्रैक्शन प्रश्न के रूप में स्कीमा
सत्यापित संरचित records
सिमैंटिक पहचान और डीडुप
आपका डेटाबेस

वर्कफ़्लो के विस्तृत विवरण के लिए बैच संवर्धन देखें।

टेक्स्ट से परे: मल्टीमॉडल स्रोत

संरचित ज्ञान केवल टेक्स्ट में नहीं रहता। Entity Enricher उन फॉर्मैट्स को स्वीकार करता है जो वास्तव में आपके आर्काइव में मौजूद हैं और हर एक को उसे पढ़ने में सक्षम मॉडलों तक रूट करता है।

PDF दस्तावेज़
लेआउट, टेबल और आकृतियों सहित पूरे दस्तावेज़ — PDF-सक्षम मॉडल द्वारा नेटिव रूप से पढ़े जाते हैं
छवियाँ
फ़ोटो, स्कैन, डायग्राम, प्रोडक्ट शॉट — विज़न model द्वारा व्याख्या किए गए, कोई अलग OCR चरण नहीं
ऑडियो
रिकॉर्ड की गई कॉल, मीटिंग और वॉइस नोट्स — ऑडियो-सक्षम मॉडलों द्वारा सीधे सुने गए
ऑफ़िस और टेक्स्ट
Word, Excel, PowerPoint, HTML, CSV, Markdown — टेक्स्ट सर्वर-साइड निकाला और इनलाइन किया गया

दो डिलीवरी मोड इसे संभव बनाते हैं। बाइनरी मोड में, मूल बाइट्स मॉडल तक जाते हैं ताकि रूपांतरण में कुछ भी न खोए — किसी टेबल का लेआउट, किसी फ़ोटो का विवरण, किसी वक्ता के शब्द। इनलाइन-टेक्स्ट मोड में, टेक्स्ट को अपलोड के समय एक बार निकाला जाता है और हर प्रॉम्प्ट में इनलाइन किया जाता है, जो किसी भी मॉडल के साथ उसकी क्षमताओं की परवाह किए बिना काम करता है।

क्षमता-सजग रूटिंग का अर्थ है कि कोई फ़ाइल केवल उन्हीं मॉडलों तक पहुँचती है जो वास्तव में उसे प्रोसेस कर सकते हैं — आपको एनरिचमेंट शुरू होने से पहले चेतावनी मिलती है, विफल होने के बाद नहीं। फ़ॉर्मैट और मोड Document Attachments में विस्तार से दिए गए हैं।

विशेषज्ञता डोमेन: सही विशेषज्ञ से परामर्श

हर ज्ञान समान नहीं होता। दवा की क्रियाविधि के बारे में प्रश्न के लिए कॉर्पोरेट संरचना के प्रश्न से अलग विशेषज्ञता चाहिए। विशेषज्ञता डोमेन स्कीमा प्रॉपर्टीज़ को LLM के भीतर सही विशेषज्ञ तक रूट करते हैं, और प्रत्येक डोमेन के लिए प्रासंगिक ज्ञान पैटर्न सक्रिय करते हैं।

pharmaceutical
ड्रग नाम, तंत्र, संकेत, नियामक स्थिति
business_classification
उद्योग कोड, कंपनी प्रकार, मार्केट सेगमेंट
geographic
स्थान, क्षेत्र, देश-विशिष्ट जानकारी
financial
राजस्व, मार्केट कैप, फंडिंग राउंड
temporal
तारीखें, अवधियाँ, ऐतिहासिक घटनाएँ
regulatory
अनुमोदन, लाइसेंस, अनुपालन स्थिति

मल्टी-विशेषज्ञता रणनीति का उपयोग करते समय, प्रत्येक डोमेन को केवल संबंधित स्कीमा प्रॉपर्टीज़ के साथ अपनी केंद्रित LLM कॉल मिलती है, जिससे आउटपुट गुणवत्ता काफ़ी बेहतर होती है।

क्वालिटी नियंत्रण

सत्यापन और स्व-सुधार

LLM गलतियाँ कर सकते हैं। Entity Enricher त्रुटियों को स्वचालित रूप से पकड़ने और ठीक करने के लिए गुणवत्ता नियंत्रण की कई परतें लागू करता है:

  1. टाइप वैलिडेशन — सुनिश्चित करता है कि आउटपुट स्कीमा टाइप्स (string, number, boolean, आदि) से मेल खाता है
  2. विशेषज्ञता सत्यापन — सत्यापित करता है कि सभी विशेषज्ञता डोमेन परिभाषित हैं और उनमें प्रॉपर्टीज़ हैं
  3. सेल्फ-करेक्शन — जब मान्यता विफल हो जाती है, तो स्वचालित सुधार के लिए त्रुटियाँ LLM को वापस भेजी जाती हैं (5 पुनः प्रयास तक)
  4. प्रिज़र्व लॉजिक — संरक्षित फ़ील्ड्स के मूल मान एनरिचमेंट के बाद पुनर्स्थापित किए जाते हैं, जिससे डेटा अखंडता सुनिश्चित होती है

सर्च कीज़: संवर्धन के दौरान पहचान को स्थिर करना

सर्च कीज़ LLM को गलत एंटिटी के बारे में मतिभ्रम करने से रोकती हैं। ये दो भूमिकाएँ निभाती हैं:

  • सर्च की (नाम, वेबसाइट) — लुकअप पहचानकर्ता जो LLM को सही एंटिटी खोजने में मदद करते हैं
  • मर्ज कुंजियाँ (arrays में product_name) — कई मॉडल से परिणाम मर्ज करते समय array आइटम का मिलान करने के लिए डिडुप्लीकेशन कुंजियाँ

एनरिचमेंट प्रॉम्प्ट पर ज़ोर देता है: “आप इन सर्च कुंजियों द्वारा पहचानी गई इस विशिष्ट एंटिटी को एनरिच कर रहे हैं।”

सर्च कीज़ और सिमेंटिक IDs पहचान के दो पहलू हैं: सर्च कीज़ LLM को संवर्धन के दौरान सही एंटिटी ढूँढने में मदद करती हैं; सिमेंटिक IDs इसे एक स्थायी पहचान देती हैं जिस पर आपके सिस्टम संवर्धन के बाद निर्भर करते हैं।

प्री-फ्लाइट क्लासिफिकेशन

एनरिचमेंट शुरू होने से पहले, एक वैकल्पिक प्री-फ्लाइट क्लासिफिकेशन चरण यह सत्यापित कर सकता है कि एंटिटी वास्तव में स्कीमा टाइप से मेल खाती है। यह तब हैलुसिनेशन को रोकता है जब एंटिटीज़ मेल नहीं खातीं — उदाहरण के लिए, “Planet” स्कीमा के विरुद्ध “Titan” को एनरिच करना जबकि Titan वास्तव में एक चंद्रमा है।

लागत जागरूकता

LLM कॉल की लागत होती है। Entity Enricher टोकन उपयोग, प्रति प्रोवाइडर लागत, प्रति एनरिचमेंट लागत और ऑर्गनाइज़ेशन-स्कोप्ड खर्च को ट्रैक करता है। इससे बजट मॉनिटरिंग, प्रोवाइडर तुलना (लागत बनाम गुणवत्ता), और सरल फ़ील्ड के लिए सस्ते मॉडल इस्तेमाल करने जैसे ऑप्टिमाइज़ेशन निर्णय संभव होते हैं — जो हज़ारों दस्तावेज़ों के आर्काइव को प्रोसेस करते समय सबसे अधिक मायने रखते हैं।

सारांश

कंपोनेंटवैचारिक भूमिका
स्कीमाआप जो प्रश्न पूछ रहे हैं
LLM प्रोवाइडरविभिन्न ज्ञान दृष्टिकोण
अटैचमेंटज्ञान स्रोत के रूप में आपके संग्रह (PDF, इमेज, ऑडियो, ऑफिस)
सर्च कीज़enrichment के दौरान entity पहचान एंकर
सिमैंटिक IDसंवर्धन के बाद स्थिर पहचान — आपके सूचना तंत्र की रीढ़
विशेषज्ञता डोमेनविशेषज्ञ रूटिंग
रणनीतियाँLLM कॉल्स को कैसे ऑर्केस्ट्रेट करें
बैच प्रोसेसिंगआर्काइव स्केल पर समानांतर एनरिचमेंट
बहुभाषीआप जिन सभी भाषाओं में काम करते हैं, उनमें एक ही तथ्य
सत्यापनक्वालिटी एश्योरेंस
सुरक्षित रखेंडेटा अखंडता सुरक्षा

अगले चरण