बहुभाषी संवर्धन - Entity Enricher दस्तावेज़

बहुभाषी संवर्धन

Entity Enricher एक साथ 40 भाषाओं तक में संवर्धन परिणाम उत्पन्न कर सकता है। बहुभाषी फ़ील्ड्स को भाषा-कुंजीबद्ध JSON ऑब्जेक्ट्स के रूप में संग्रहीत किया जाता है — एक ऐसा प्रारूप जो पोर्टेबल, क्वेरी-योग्य, और हर प्रमुख डेटाबेस के साथ संगत है।

स्कीमा एडिटर: बहुभाषी टॉगल

Schema editor में, किसी भी string या array-of-strings property पर multilingual फ्लैग टॉगल करें। सक्षम होने पर, LLM एक सादे मान के बजाय भाषा-कुंजीबद्ध ऑब्जेक्ट में लिपटे मान लौटाता है।

यह कैसे काम करता है

1
fields को बहुभाषी के रूप में चिह्नित करें
Schema editor में, string या array properties पर multilingual चेकबॉक्स चुनें। यह फ्लैग JSON schema में multilingual: true के रूप में संग्रहीत होता है।
2
लक्ष्य भाषाएँ चुनें
साइडबार विकल्पों में, 40 समर्थित भाषाओं में से एक या अधिक भाषाएँ चुनें। एनरिचमेंट प्रॉम्प्ट LLM को प्रत्येक चयनित भाषा में मान उत्पन्न करने का निर्देश देता है। पहली चयनित भाषा प्राथमिक भाषा होती है: इसे “Primary” बैज के साथ हाइलाइट किया जाता है और इसका उपयोग सभी गैर-बहुभाषी string फ़ील्ड्स (विवरण, नाम, आदि जो multilingual: true के रूप में चिह्नित नहीं हैं) के लिए किया जाता है। किसी भी अन्य chip को प्राथमिक बनाने के लिए उस पर बटन का उपयोग करें। बैकएंड उन किसी भी अतिरिक्त भाषा कुंजियों को भी फ़िल्टर कर देता है जो LLM उत्पन्न कर सकता है लेकिन जो आपके चयन में नहीं हैं।
3
LLM भाषा-कुंजीबद्ध आउटपुट लौटाता है
डायनामिक Pydantic मॉडल बहुभाषी फ़ील्ड को dict[str, T] के रूप में लपेटता है, जहाँ कुंजियाँ ISO 639-1 भाषा कोड होती हैं और मान फ़ील्ड प्रकार से मेल खाते हैं।

डेटा फ़ॉर्मैट

बहुभाषी मान भाषा कोड को कुंजियों के रूप में रखते हुए JSON ऑब्जेक्ट के रूप में संग्रहीत किए जाते हैं। यह प्रारूप अपनी पोर्टेबिलिटी, क्वेरी-योग्यता और स्टोरेज दक्षता के कारण विकल्पों की तुलना में चुना गया।

बहुभाषी स्ट्रिंग
स्कीमा प्रॉपर्टी
"description": {
"type": "string",
"multilingual": true
}
संवर्धन आउटपुट
"description": {
"en": "A global pharma company",
"fr": "Une entreprise pharma mondiale",
"ar": "شركة أدوية عالمية"
}
बहुभाषी ऐरे
स्कीमा प्रॉपर्टी
"indications": {
"type": "array",
"items": { "type": "string" },
"multilingual": true
}
संवर्धन आउटपुट
"indications": {
"en": ["pain relief", "fever"],
"fr": ["anti-douleur", "fièvre"],
"ar": ["تخفيف الألم", "حمى"]
}
गैर-बहुभाषी फ़ील्ड

multilingual: true के बिना फ़ील्ड सादे मान के रूप में लौटाए जाते हैं। पहचानकर्ता, कोड, URLs, तिथियाँ और संख्याएँ आमतौर पर गैर-बहुभाषी रहती हैं।

"atc_code": "N02BE01",
"founded_year": 1973,
"website": "https://example.com"

यह फ़ॉर्मेट क्यों?

मल्टीलिंगुअल एरे के लिए दो तरीके मौजूद हैं। Entity Enricher Format A (भाषा-कुंजीबद्ध ऑब्जेक्ट) का उपयोग करता है क्योंकि यह एकमात्र ऐसा फ़ॉर्मेट है जो बिना किसी ट्रांसफ़ॉर्मेशन के सभी प्रमुख डेटाबेस में जैसा है वैसा काम करता है।

मापदंडA भाषा-कुंजीबद्ध ऑब्जेक्टB स्थानीयकृत आइटम का Array
संरचना{"en": [...], "fr": [...]}[{"en": "x", "fr": "y"}, ...]
एक भाषा क्वेरी करेंसीधी पहुँच
data -> 'field' -> 'en'
पुनरावृत्ति आवश्यक है
jsonb_array_elements + extract
एक भाषा जोड़ेंऑब्जेक्ट में एक की जोड़ेंarray में हर आइटम को अपडेट करें
स्केलर के अनुरूपहाँ — वही {"en": "...", "fr": "..."} पैटर्ननहीं — स्ट्रिंग्स बनाम ऐरे के लिए अलग आकार
डेटाबेस पोर्टेबिलिटीसभी प्रमुख डेटाबेससभी प्रमुख डेटाबेस

डेटाबेस क्वेरी उदाहरण

लैंग्वेज-कीड फ़ॉर्मेट उन सभी प्रमुख डेटाबेस में नेटिवली क्वेरी करने योग्य है जो JSON कॉलम सपोर्ट करते हैं।

PostgreSQL
-- Get English description
SELECT structured_output -> 'description' -> 'en' FROM enrichment_records;
-- Search within a multilingual array
SELECT * FROM enrichment_records
WHERE structured_output -> 'indications' -> 'en' ? 'pain relief';
MySQL 8+
-- Get French description
SELECT JSON_EXTRACT(structured_output, '$.description.fr') FROM enrichment_records;
MongoDB
// Project only Arabic values
db.records.find({}, { "description.ar": 1, "indications.ar": 1 })
SQL Server
-- Get German description
SELECT JSON_VALUE(structured_output, '$.description.de') FROM enrichment_records;

समर्थित भाषाएँ

40 भाषाएँ उपलब्ध हैं। एनरिचमेंट चलाते समय कोई भी संयोजन चुनें।

ग्लोबल भाषाएँ
enEnglish
zhChinese
hiHindi
esSpanish
arArabic
frFrench
bnBengali
ptPortuguese
ruRussian
jaJapanese
deGerman
urUrdu
viVietnamese
trTurkish
koKorean
taTamil
mrMarathi
teTelugu
paPunjabi
yueCantonese
itItalian
यूरोपीय भाषाएँ
plPolish
ukUkrainian
roRomanian
nlDutch
elGreek
csCzech
huHungarian
svSwedish
srSerbian
bgBulgarian
hrCroatian
skSlovak
daDanish
fiFinnish
noNorwegian
ltLithuanian
slSlovenian
lvLatvian
etEstonian

कौन-सी फ़ील्ड बहुभाषी होनी चाहिए?

बहुभाषी के रूप में चिह्नित करें
  • नाम (कंपनी, उत्पाद, शहर, देश)
  • विवरण और सारांश
  • चिकित्सा/वैज्ञानिक शब्द
  • स्थिति लेबल (“अप्रूव्ड”, “एक्टिव”)
  • श्रेणी लेबल और टैग
  • निर्देश और सुझाव
गैर-बहुभाषी रखें
  • तकनीकी पहचानकर्ता (UUID, ID)
  • मानकीकृत कोड (ATC, CAS, ISO)
  • संक्षिप्त रूप (FDA, EMA, WHO)
  • संख्याएँ, तिथियाँ, प्रतिशत
  • URLs, ईमेल, फ़ोन नंबर
  • बूलियन फ़्लैग

मान्य फ़ील्ड प्रकार

मल्टीलिंगुअल फ़्लैग केवल कुछ प्रॉपर्टी टाइप्स पर मान्य है। स्कीमा एडिटर इसे अपने-आप लागू करता है।

प्रॉपर्टी प्रकारबहुभाषी?आउटपुट फ़ॉर्मैट
stringहाँdict[str, str]
number / integerहाँdict[str, float]
booleanहाँdict[str, bool]
प्रिमिटिव का arrayहाँdict[str, list[str]]
objectनहींइसके बजाय ऑब्जेक्ट के अंदर अलग-अलग fields को चिह्नित करें
ऑब्जेक्ट का arrayनहींइसके बजाय आइटम्स के अंदर अलग-अलग fields को चिह्नित करें
$refनहींइसके बजाय संदर्भित entity के अंदर fields को चिह्नित करें

Enrichment पाइपलाइन इंटीग्रेशन

बहुभाषी समर्थन संवर्धन पाइपलाइन के हर चरण में बुना गया है।

स्कीमा
चयनित फ़ील्ड पर multilingual: true
प्रॉम्प्ट बिल्डर
भाषा
निर्देश + उदाहरण इंजेक्ट करता है
डायनामिक मॉडल
str → dict[str, str]
Pydantic सत्यापन
JSONB भंडारण
आउटपुट में भाषा-कुंजीबद्ध
ऑब्जेक्ट
मल्टी-एक्सपर्टीज़: मल्टी-एक्सपर्टीज़ रणनीति का उपयोग करते समय, प्रत्येक विशेषज्ञता क्षेत्र को अपने स्वयं के प्रॉम्प्ट में बहुभाषी निर्देश प्राप्त होते हैं। फ़ील्ड्स का प्रत्येक विशेषज्ञता के लिए स्वतंत्र रूप से अनुवाद किया जाता है, फिर अंतिम आउटपुट में मर्ज कर दिया जाता है।

फ्यूज़न में बहुभाषी फ़ील्ड

कई मॉडलों से परिणामों को फ्यूज़ करते समय, बहुभाषी फ़ील्ड की तुलना प्रति भाषा की जाती है।

सिनारियोरिज़ॉल्यूशन
मॉडल अंग्रेज़ी पर सहमत हैं पर फ़्रेंच पर भिन्न हैंअंग्रेज़ी सीधे पास हो जाती है; फ़्रेंच को majority vote या arbitration के माध्यम से प्रति-भाषा हल किया जाता है
एक model में अरबी है, दूसरे में नहींनॉन-नल मान को प्राथमिकता दें (अरबी रखा जाता है)
बहुभाषी ऐरे प्रति मॉडल लंबाई में भिन्न होते हैंप्रति भाषा सभी आइटम्स का यूनियन