बहुभाषी संवर्धन - Entity Enricher दस्तावेज़

बहुभाषी संवर्धन

Entity Enricher एक साथ 40 भाषाओं तक में संवर्धन परिणाम उत्पन्न कर सकता है। बहुभाषी फ़ील्ड्स को भाषा-कुंजीबद्ध JSON ऑब्जेक्ट्स के रूप में संग्रहीत किया जाता है — एक ऐसा प्रारूप जो पोर्टेबल, क्वेरी-योग्य, और हर प्रमुख डेटाबेस के साथ संगत है।

स्कीमा एडिटर: बहुभाषी टॉगल

Schema editor में, किसी भी string या array-of-strings property पर multilingual फ्लैग टॉगल करें। सक्षम होने पर, LLM एक सादे मान के बजाय भाषा-कुंजीबद्ध ऑब्जेक्ट में लिपटे मान लौटाता है।

यह कैसे काम करता है

fields को बहुभाषी के रूप में चिह्नित करें

Schema editor में, string या array properties पर multilingual चेकबॉक्स चुनें। यह फ्लैग JSON schema में multilingual: true के रूप में संग्रहीत होता है।

लक्ष्य भाषाएँ चुनें

साइडबार विकल्पों में, 40 समर्थित भाषाओं में से एक या अधिक भाषाएँ चुनें। एनरिचमेंट प्रॉम्प्ट LLM को प्रत्येक चयनित भाषा में मान उत्पन्न करने का निर्देश देता है। पहली चयनित भाषा प्राथमिक भाषा होती है: इसे “Primary” बैज के साथ हाइलाइट किया जाता है और इसका उपयोग सभी गैर-बहुभाषी string फ़ील्ड्स (विवरण, नाम, आदि जो multilingual: true के रूप में चिह्नित नहीं हैं) के लिए किया जाता है। किसी भी अन्य chip को प्राथमिक बनाने के लिए उस पर ↑ बटन का उपयोग करें। बैकएंड उन किसी भी अतिरिक्त भाषा कुंजियों को भी फ़िल्टर कर देता है जो LLM उत्पन्न कर सकता है लेकिन जो आपके चयन में नहीं हैं।

LLM भाषा-कुंजीबद्ध आउटपुट लौटाता है

डायनामिक Pydantic मॉडल बहुभाषी फ़ील्ड को dict[str, T] के रूप में लपेटता है, जहाँ कुंजियाँ ISO 639-1 भाषा कोड होती हैं और मान फ़ील्ड प्रकार से मेल खाते हैं।

डेटा फ़ॉर्मैट

बहुभाषी मान भाषा कोड को कुंजियों के रूप में रखते हुए JSON ऑब्जेक्ट के रूप में संग्रहीत किए जाते हैं। यह प्रारूप अपनी पोर्टेबिलिटी, क्वेरी-योग्यता और स्टोरेज दक्षता के कारण विकल्पों की तुलना में चुना गया।

बहुभाषी स्ट्रिंग

स्कीमा प्रॉपर्टी

"description": {

"type": "string",

"multilingual": true

}

संवर्धन आउटपुट

"description": {

"en": "A global pharma company",

"fr": "Une entreprise pharma mondiale",

"ar": "شركة أدوية عالمية"

}

बहुभाषी ऐरे

स्कीमा प्रॉपर्टी

"indications": {

"type": "array",

"items": { "type": "string" },

"multilingual": true

}

संवर्धन आउटपुट

"indications": {

"en": ["pain relief", "fever"],

"fr": ["anti-douleur", "fièvre"],

"ar": ["تخفيف الألم", "حمى"]

}

गैर-बहुभाषी फ़ील्ड

multilingual: true के बिना फ़ील्ड सादे मान के रूप में लौटाए जाते हैं। पहचानकर्ता, कोड, URLs, तिथियाँ और संख्याएँ आमतौर पर गैर-बहुभाषी रहती हैं।

"atc_code": "N02BE01",

"founded_year": 1973,

"website": "https://example.com"

यह फ़ॉर्मेट क्यों?

मल्टीलिंगुअल एरे के लिए दो तरीके मौजूद हैं। Entity Enricher Format A (भाषा-कुंजीबद्ध ऑब्जेक्ट) का उपयोग करता है क्योंकि यह एकमात्र ऐसा फ़ॉर्मेट है जो बिना किसी ट्रांसफ़ॉर्मेशन के सभी प्रमुख डेटाबेस में जैसा है वैसा काम करता है।

मापदंड	A भाषा-कुंजीबद्ध ऑब्जेक्ट	B स्थानीयकृत आइटम का Array
संरचना	`{"en": [...], "fr": [...]}`	`[{"en": "x", "fr": "y"}, ...]`
एक भाषा क्वेरी करें	सीधी पहुँच `data -> 'field' -> 'en'`	पुनरावृत्ति आवश्यक है `jsonb_array_elements + extract`
एक भाषा जोड़ें	ऑब्जेक्ट में एक की जोड़ें	array में हर आइटम को अपडेट करें
स्केलर के अनुरूप	हाँ — वही {"en": "...", "fr": "..."} पैटर्न	नहीं — स्ट्रिंग्स बनाम ऐरे के लिए अलग आकार
डेटाबेस पोर्टेबिलिटी	सभी प्रमुख डेटाबेस	सभी प्रमुख डेटाबेस

डेटाबेस क्वेरी उदाहरण

लैंग्वेज-कीड फ़ॉर्मेट उन सभी प्रमुख डेटाबेस में नेटिवली क्वेरी करने योग्य है जो JSON कॉलम सपोर्ट करते हैं।

PostgreSQL

-- Get English description

SELECT structured_output -> 'description' -> 'en' FROM enrichment_records;

-- Search within a multilingual array

SELECT * FROM enrichment_records

WHERE structured_output -> 'indications' -> 'en' ? 'pain relief';

MySQL 8+

-- Get French description

SELECT JSON_EXTRACT(structured_output, '$.description.fr') FROM enrichment_records;

MongoDB

// Project only Arabic values

db.records.find({}, { "description.ar": 1, "indications.ar": 1 })

SQL Server

-- Get German description

SELECT JSON_VALUE(structured_output, '$.description.de') FROM enrichment_records;

समर्थित भाषाएँ

40 भाषाएँ उपलब्ध हैं। एनरिचमेंट चलाते समय कोई भी संयोजन चुनें।

ग्लोबल भाषाएँ

enEnglish

zhChinese

hiHindi

esSpanish

arArabic

frFrench

bnBengali

ptPortuguese

ruRussian

jaJapanese

deGerman

urUrdu

viVietnamese

trTurkish

koKorean

taTamil

mrMarathi

teTelugu

paPunjabi

yueCantonese

itItalian

यूरोपीय भाषाएँ

plPolish

ukUkrainian

roRomanian

nlDutch

elGreek

csCzech

huHungarian

svSwedish

srSerbian

bgBulgarian

hrCroatian

skSlovak

daDanish

fiFinnish

noNorwegian

ltLithuanian

slSlovenian

lvLatvian

etEstonian

कौन-सी फ़ील्ड बहुभाषी होनी चाहिए?

बहुभाषी के रूप में चिह्नित करें

नाम (कंपनी, उत्पाद, शहर, देश)
विवरण और सारांश
चिकित्सा/वैज्ञानिक शब्द
स्थिति लेबल (“अप्रूव्ड”, “एक्टिव”)
श्रेणी लेबल और टैग
निर्देश और सुझाव

गैर-बहुभाषी रखें

तकनीकी पहचानकर्ता (UUID, ID)
मानकीकृत कोड (ATC, CAS, ISO)
संक्षिप्त रूप (FDA, EMA, WHO)
संख्याएँ, तिथियाँ, प्रतिशत
URLs, ईमेल, फ़ोन नंबर
बूलियन फ़्लैग

मान्य फ़ील्ड प्रकार

मल्टीलिंगुअल फ़्लैग केवल कुछ प्रॉपर्टी टाइप्स पर मान्य है। स्कीमा एडिटर इसे अपने-आप लागू करता है।

प्रॉपर्टी प्रकार	बहुभाषी?	आउटपुट फ़ॉर्मैट
string	हाँ	`dict[str, str]`
number / integer	हाँ	`dict[str, float]`
boolean	हाँ	`dict[str, bool]`
प्रिमिटिव का array	हाँ	`dict[str, list[str]]`
object	नहीं	इसके बजाय ऑब्जेक्ट के अंदर अलग-अलग fields को चिह्नित करें
ऑब्जेक्ट का array	नहीं	इसके बजाय आइटम्स के अंदर अलग-अलग fields को चिह्नित करें
$ref	नहीं	इसके बजाय संदर्भित entity के अंदर fields को चिह्नित करें

Enrichment पाइपलाइन इंटीग्रेशन

बहुभाषी समर्थन संवर्धन पाइपलाइन के हर चरण में बुना गया है।

स्कीमा

चयनित फ़ील्ड पर multilingual: true

प्रॉम्प्ट बिल्डर

भाषा
निर्देश + उदाहरण इंजेक्ट करता है

डायनामिक मॉडल

str → dict[str, str]
Pydantic सत्यापन

JSONB भंडारण

आउटपुट में भाषा-कुंजीबद्ध
ऑब्जेक्ट

मल्टी-एक्सपर्टीज़: मल्टी-एक्सपर्टीज़ रणनीति का उपयोग करते समय, प्रत्येक विशेषज्ञता क्षेत्र को अपने स्वयं के प्रॉम्प्ट में बहुभाषी निर्देश प्राप्त होते हैं। फ़ील्ड्स का प्रत्येक विशेषज्ञता के लिए स्वतंत्र रूप से अनुवाद किया जाता है, फिर अंतिम आउटपुट में मर्ज कर दिया जाता है।

फ्यूज़न में बहुभाषी फ़ील्ड

कई मॉडलों से परिणामों को फ्यूज़ करते समय, बहुभाषी फ़ील्ड की तुलना प्रति भाषा की जाती है।

सिनारियो	रिज़ॉल्यूशन
मॉडल अंग्रेज़ी पर सहमत हैं पर फ़्रेंच पर भिन्न हैं	अंग्रेज़ी सीधे पास हो जाती है; फ़्रेंच को majority vote या arbitration के माध्यम से प्रति-भाषा हल किया जाता है
एक model में अरबी है, दूसरे में नहीं	नॉन-नल मान को प्राथमिकता दें (अरबी रखा जाता है)
बहुभाषी ऐरे प्रति मॉडल लंबाई में भिन्न होते हैं	प्रति भाषा सभी आइटम्स का यूनियन

स्कीमा एडिटर

प्रति फ़ील्ड बहुभाषी टॉगल करें

सिमैंटिक ID

Headache/Céphalée को एक पहचान में संक्षिप्त करें

Enrichment रणनीतियाँ

प्रति-expertise domain बहुभाषी prompt

मल्टी-मॉडल फ्यूज़न

प्रति-भाषा विरोध समाधान