Entity Enricher एक साथ 40 भाषाओं तक में संवर्धन परिणाम उत्पन्न कर सकता है। बहुभाषी फ़ील्ड्स को भाषा-कुंजीबद्ध JSON ऑब्जेक्ट्स के रूप में संग्रहीत किया जाता है — एक ऐसा प्रारूप जो पोर्टेबल, क्वेरी-योग्य, और हर प्रमुख डेटाबेस के साथ संगत है।
Schema editor में, किसी भी string या array-of-strings property पर multilingual फ्लैग टॉगल करें। सक्षम होने पर, LLM एक सादे मान के बजाय भाषा-कुंजीबद्ध ऑब्जेक्ट में लिपटे मान लौटाता है।
multilingual: true के रूप में संग्रहीत होता है।multilingual: true के रूप में चिह्नित नहीं हैं) के लिए किया जाता है। किसी भी अन्य chip को प्राथमिक बनाने के लिए उस पर ↑ बटन का उपयोग करें। बैकएंड उन किसी भी अतिरिक्त भाषा कुंजियों को भी फ़िल्टर कर देता है जो LLM उत्पन्न कर सकता है लेकिन जो आपके चयन में नहीं हैं।dict[str, T] के रूप में लपेटता है, जहाँ कुंजियाँ ISO 639-1 भाषा कोड होती हैं और मान फ़ील्ड प्रकार से मेल खाते हैं।बहुभाषी मान भाषा कोड को कुंजियों के रूप में रखते हुए JSON ऑब्जेक्ट के रूप में संग्रहीत किए जाते हैं। यह प्रारूप अपनी पोर्टेबिलिटी, क्वेरी-योग्यता और स्टोरेज दक्षता के कारण विकल्पों की तुलना में चुना गया।
multilingual: true के बिना फ़ील्ड सादे मान के रूप में लौटाए जाते हैं। पहचानकर्ता, कोड, URLs, तिथियाँ और संख्याएँ आमतौर पर गैर-बहुभाषी रहती हैं।
मल्टीलिंगुअल एरे के लिए दो तरीके मौजूद हैं। Entity Enricher Format A (भाषा-कुंजीबद्ध ऑब्जेक्ट) का उपयोग करता है क्योंकि यह एकमात्र ऐसा फ़ॉर्मेट है जो बिना किसी ट्रांसफ़ॉर्मेशन के सभी प्रमुख डेटाबेस में जैसा है वैसा काम करता है।
| मापदंड | A भाषा-कुंजीबद्ध ऑब्जेक्ट | B स्थानीयकृत आइटम का Array |
|---|---|---|
| संरचना | {"en": [...], "fr": [...]} | [{"en": "x", "fr": "y"}, ...] |
| एक भाषा क्वेरी करें | सीधी पहुँचdata -> 'field' -> 'en' | पुनरावृत्ति आवश्यक हैjsonb_array_elements + extract |
| एक भाषा जोड़ें | ऑब्जेक्ट में एक की जोड़ें | array में हर आइटम को अपडेट करें |
| स्केलर के अनुरूप | हाँ — वही {"en": "...", "fr": "..."} पैटर्न | नहीं — स्ट्रिंग्स बनाम ऐरे के लिए अलग आकार |
| डेटाबेस पोर्टेबिलिटी | सभी प्रमुख डेटाबेस | सभी प्रमुख डेटाबेस |
लैंग्वेज-कीड फ़ॉर्मेट उन सभी प्रमुख डेटाबेस में नेटिवली क्वेरी करने योग्य है जो JSON कॉलम सपोर्ट करते हैं।
40 भाषाएँ उपलब्ध हैं। एनरिचमेंट चलाते समय कोई भी संयोजन चुनें।
enEnglishzhChinesehiHindiesSpanisharArabicfrFrenchbnBengaliptPortugueseruRussianjaJapanesedeGermanurUrduviVietnamesetrTurkishkoKoreantaTamilmrMarathiteTelugupaPunjabiyueCantoneseitItalianplPolishukUkrainianroRomaniannlDutchelGreekcsCzechhuHungariansvSwedishsrSerbianbgBulgarianhrCroatianskSlovakdaDanishfiFinnishnoNorwegianltLithuanianslSlovenianlvLatvianetEstonianमल्टीलिंगुअल फ़्लैग केवल कुछ प्रॉपर्टी टाइप्स पर मान्य है। स्कीमा एडिटर इसे अपने-आप लागू करता है।
| प्रॉपर्टी प्रकार | बहुभाषी? | आउटपुट फ़ॉर्मैट |
|---|---|---|
| string | हाँ | dict[str, str] |
| number / integer | हाँ | dict[str, float] |
| boolean | हाँ | dict[str, bool] |
| प्रिमिटिव का array | हाँ | dict[str, list[str]] |
| object | नहीं | इसके बजाय ऑब्जेक्ट के अंदर अलग-अलग fields को चिह्नित करें |
| ऑब्जेक्ट का array | नहीं | इसके बजाय आइटम्स के अंदर अलग-अलग fields को चिह्नित करें |
| $ref | नहीं | इसके बजाय संदर्भित entity के अंदर fields को चिह्नित करें |
बहुभाषी समर्थन संवर्धन पाइपलाइन के हर चरण में बुना गया है।
कई मॉडलों से परिणामों को फ्यूज़ करते समय, बहुभाषी फ़ील्ड की तुलना प्रति भाषा की जाती है।
| सिनारियो | रिज़ॉल्यूशन |
|---|---|
| मॉडल अंग्रेज़ी पर सहमत हैं पर फ़्रेंच पर भिन्न हैं | अंग्रेज़ी सीधे पास हो जाती है; फ़्रेंच को majority vote या arbitration के माध्यम से प्रति-भाषा हल किया जाता है |
| एक model में अरबी है, दूसरे में नहीं | नॉन-नल मान को प्राथमिकता दें (अरबी रखा जाता है) |
| बहुभाषी ऐरे प्रति मॉडल लंबाई में भिन्न होते हैं | प्रति भाषा सभी आइटम्स का यूनियन |