AI स्कीमा जनरेशन - Entity Enricher डॉक्युमेंटेशन

AI स्कीमा जनरेशन

स्वचालित सेल्फ-करेक्शन और इंटेलिजेंट पोस्ट-प्रोसेसिंग के साथ AI का उपयोग करके सैंपल डेटा से स्ट्रक्चर्ड JSON schema जेनरेट करें।

यह कैसे काम करता है

स्कीमा जनरेशन कच्चे एंटिटी डेटा को एक टाइप्ड, एनोटेटेड JSON स्कीमा में बदल देता है, जो ठीक-ठीक परिभाषित करता है कि संवर्धन के दौरान कौन-सी जानकारी निकालनी है। स्कीमा मैन्युअल रूप से लिखने के बजाय, आप सैंपल JSON पेस्ट करते हैं और AI को संरचना का विश्लेषण करने, टाइप अनुमानित करने, विशेषज्ञता क्षेत्र असाइन करने और सुधार सुझाने देते हैं।

जनरेशन पाइपलाइन

इनपुट प्रीप्रोसेसिंग — आपका नमूना JSON विश्लेषित किया जाता है। स्थानीयकृत ऑब्जेक्ट (जैसे {"en": "...", "fr": "..."}) एक ही मान में सिमटा दिए जाते हैं, और प्रॉपर्टी गिनती तय करती है कि कितने विशेषज्ञता डोमेन की अनुमति है।
प्रॉम्प्ट निर्माण — आपके डेटा की जटिलता के आधार पर एक अनुकूली सिस्टम प्रॉम्प्ट बनाया जाता है: क्या इसमें नेस्टेड ऑब्जेक्ट्स हैं, इसमें कितने प्रॉपर्टी हैं, और क्या बहुभाषी फ़ील्ड्स का पता चला।
स्व-सुधार के साथ LLM जनन — AI स्कीमा उत्पन्न करता है। यदि 8 सत्यापन नियमों में से कोई विफल होता है, तो त्रुटियाँ सुधार के लिए AI को वापस भेजी जाती हैं — कुल 6 प्रयासों तक।
पोस्ट-प्रोसेसिंग — नियतात्मक नियम स्कीमा को परिष्कृत करते हैं: नल-योग्य फ़ील्ड्स को चिह्नित करना, खाली सर्च की को साफ़ करना, और विशेषज्ञता मेटाडेटा एकत्र करना।
ऑटो-सेव — जनरेट किया गया स्कीमा स्वचालित रूप से सहेजा जाता है और कंटेंट हैशिंग का उपयोग करके डिडुप्लिकेट किया जाता है, ताकि समान स्कीमा डुप्लिकेट न हों।

स्व-सुधार लूप

सेल्फ़-करेक्शन लूप ही स्कीमा जनरेशन को विश्वसनीय बनाता है। AI द्वारा स्कीमा तैयार करने के बाद, वह एक वैलिडेटर से गुज़रता है जो टाइप सटीकता, एक्सपर्टीज़ असाइनमेंट, रेफ़रेंस अखंडता और डेटा पूर्णता को कवर करने वाले 8 नियमों की जाँच करता है। यदि कोई नियम विफल होता है, तो विशिष्ट एरर संदेश AI को वापस भेजा जाता है ताकि वह अपने अगले प्रयास में समस्या को ठीक कर सके।

उदाहरण स्व-सुधार

प्रयास 1AI स्कीमा जनरेट करता है। वैलिडेटर पता लगाता है:

revenue: टाइप मिसमैच — इनपुट संख्या है लेकिन स्कीमा 'string' कहता है

पुनः प्रयास करेंक्या गलत हुआ इसके संदर्भ के साथ त्रुटि AI को वापस भेजी जाती है।

प्रयास 2AI प्रकार को number में सुधारता है। सभी 8 नियम पास हो जाते हैं। स्कीमा स्वीकार किया जाता है।

यह दृष्टिकोण प्रॉम्प्ट में AI से "टाइप्स के बारे में सावधान रहने" के लिए कहने की तुलना में कहीं अधिक विश्वसनीय है। वैलिडेटर ठोस त्रुटियाँ पकड़ता है और उन्हें ठीक करने के लिए AI को सटीक फ़ीडबैक देता है। प्रत्येक नियम के बारे में अधिक जानें Validation Rules गाइड में।

स्कीमा में क्या होता है

एक जनरेट किया गया schema एक साधारण type परिभाषा से अधिक है। प्रत्येक property में metadata शामिल होता है जो enrichment प्रक्रिया का मार्गदर्शन करता है:

प्रकार

JSON Schema प्रकार (string, number, integer, boolean, array, object)

विवरण

संदर्भात्मक विवरण जो AI को बताता है कि कौन-सी जानकारी खोजनी है

expertise

कौन-सा विशेषज्ञ क्षेत्र (वित्तीय, नियामक, आदि) यह मान प्रदान करता है

सर्च की

क्या यह फ़ील्ड एंटिटी की पहचान करती है (search) या arrays को dedupe करती है (merge)

Nullable

क्या फ़ील्ड null हो सकती है, जिससे वैकल्पिक डेटा के लिए अनावश्यक रीट्राई रुकती हैं

बहुभाषी

क्या फ़ील्ड को कई भाषाओं में संवर्धित किया जाना चाहिए

सुरक्षित रखें

क्या संवर्धन के दौरान मूल मान को अपरिवर्तित रखना है

उदाहरण

यथार्थवादी उदाहरण मान जो AI को सही प्रारूप की ओर मार्गदर्शन करते हैं

विशेषज्ञता डोमेन पहचान

AI स्कीमा प्रॉपर्टीज़ को उनके सिमेंटिक अर्थ के आधार पर एक्सपर्टीज़ डोमेन में समूहित करता है। उदाहरण के लिए, किसी फार्मास्युटिकल कंपनी के स्कीमा में “Financial Analyst,” “Regulatory Expert,” और “Corporate Information” जैसे डोमेन हो सकते हैं। इन डोमेन का उपयोग मल्टी-एक्सपर्टीज़ स्ट्रैटेजी द्वारा गहरे परिणामों के लिए समानांतर, विशेषीकृत LLM कॉल चलाने में किया जाता है।

डोमेन गणना सीमाएँ

ओवर-फ़्रैगमेंटेशन रोकने के लिए एक्सपर्टीज़ डोमेन की संख्या आपके डेटा की प्रॉपर्टी काउंट के आधार पर अपने-आप सीमित हो जाती है:

5 प्रॉपर्टी

1 डोमेन

12 प्रॉपर्टीज़

2 डोमेन

30 प्रॉपर्टी

5 डोमेन

60 प्रॉपर्टी

10 डोमेन

पोस्ट-प्रोसेसिंग

AI द्वारा एक वैध स्कीमा जनरेट करने के बाद, तीन नियतात्मक पोस्ट-प्रोसेसिंग चरण आपके वास्तविक इनपुट डेटा के आधार पर इसे परिष्कृत करते हैं:

Nullable डिटेक्शन

आपके इनपुट में null मान वाले फ़ील्ड स्वचालित रूप से nullable के रूप में चिह्नित हो जाते हैं, ताकि AI उन्हें भरने की कोशिश में रिट्राई बर्बाद न करे।

खाली सर्च की क्लियर करना

खाली मानों (null, खाली स्ट्रिंग, ज़ीरो) वाले फ़ील्ड से सर्च की फ्लैग हटा दिए जाते हैं, क्योंकि वे एंटिटी की पहचान में मदद नहीं कर सकते।

expertise संग्रह

मेट्रिक्स और रणनीति कॉन्फ़िगरेशन के लिए स्कीमा से सभी अद्वितीय विशेषज्ञता डोमेन एकत्र किए जाते हैं।

AI स्कीमा एडिटिंग

जनरेशन के बाद, आप प्राकृतिक भाषा निर्देशों का उपयोग करके स्कीमा संशोधित कर सकते हैं। एक कमांड टाइप करें और AI आपके मौजूदा स्कीमा संरचना को संरक्षित करते हुए परिवर्तन लागू करता है। प्रत्येक एडिट आगे के सुधारों के लिए 5 सुझाव भी उत्पन्न करता है।

उदाहरण एडिट कमांड

→एक employee_count इंटीजर फ़ील्ड जोड़ें

→

शहर और देश के साथ एक नेस्टेड पता ऑब्जेक्ट बनाएँ

→सभी टेक्स्ट फ़ील्ड में फ़्रेंच विवरण जोड़ें

→

$defs का उपयोग करके एक पैरेंट कंपनी रेफरेंस परिभाषित करें

→website field को nullable के रूप में चिह्नित करें

AI एडिट को जनरेशन नियमों के एक उपसमूह (टाइप चेकिंग, रेफरेंस इंटीग्रिटी, एक्सपर्टीज़ डोमेन संगति) का उपयोग करके वैलिडेट किया जाता है, इनपुट डेटा से तुलना किए बिना, क्योंकि आप जानबूझकर फ़ील्ड जोड़ या हटा सकते हैं।

AI सुझाव

स्कीमा जनरेशन और AI एडिटिंग दोनों 5 लक्षित सुझाव उत्पन्न करते हैं जो विभिन्न सुधार श्रेणियों को कवर करते हैं:

डेटा पूर्णताऐसे अनुपस्थित फ़ील्ड जो आपकी एंटिटी को समृद्ध कर सकते हैं

डेटा गुणवत्तासत्यापन पैटर्न, प्रारूप बाधाएँ

संबंधनेस्टेड संरचनाएँ, $defs के माध्यम से entity संदर्भ

इंटरनेशनलाइज़ेशनबहुभाषी अनुवाद, लोकेल समर्थन

बिज़नेस संदर्भडोमेन-विशिष्ट फ़ील्ड और विशेषज्ञता समूहन

सुझाव स्कीमा एडिटर में क्लिक करने योग्य चिप के रूप में दिखते हैं — किसी एक पर क्लिक करें ताकि AI एडिट इनपुट अपने आप भर जाए और लागू हो जाए।