Entity Enricher kan verrijkingsresultaten in maximaal 40 talen tegelijk produceren. Meertalige velden worden opgeslagen als JSON-objecten met taalcodes als sleutel — een formaat dat overdraagbaar en doorzoekbaar is en compatibel met elke grote database.
In de schema-editor schakel je de vlag 'meertalig' in voor elke string- of array-van-strings-eigenschap. Wanneer ingeschakeld, retourneert de LLM waarden verpakt in een object met taalsleutels in plaats van een gewone waarde.
multilingual: true in het JSON-schema.multilingual: true). Gebruik de ↑-knop op een andere chip om deze tot primair te promoveren. De backend filtert ook eventuele losse taalsleutels weg die de LLM zou kunnen produceren en die niet in je selectie staan.dict[str, T], waarbij de sleutels ISO 639-1-taalcodes zijn en de waarden overeenkomen met het veldtype.Meertalige waarden worden opgeslagen als JSON-objecten met taalcodes als sleutels. Dit formaat is boven alternatieven gekozen vanwege de overdraagbaarheid, doorzoekbaarheid en opslagefficiëntie.
Velden zonder multilingual: true worden als platte waarden geretourneerd. Identifiers, codes, URL's, datums en getallen blijven doorgaans niet-meertalig.
Er bestaan twee benaderingen voor meertalige arrays. Entity Enricher gebruikt Format A (object met taal als sleutel), omdat dit het enige formaat is dat zonder transformatie direct werkt in alle grote databases.
| Criteria | A Object met taalsleutels | B Array met gelokaliseerde items |
|---|---|---|
| Structuur | {"en": [...], "fr": [...]} | [{"en": "x", "fr": "y"}, ...] |
| Bevraag één taal | Directe toegangdata -> 'field' -> 'en' | Vereist iteratiejsonb_array_elements + extract |
| Een taal toevoegen | Voeg één sleutel toe aan het object | Elk item bijwerken in de array |
| Consistent met scalairen | Ja — hetzelfde {"en": "...", "fr": "..."}-patroon | Nee — andere vorm voor strings dan voor arrays |
| Overdraagbaarheid van database | Alle grote databases | Alle grote databases |
Het op taal gesleutelde formaat is native queryable in alle grote databases die JSON-kolommen ondersteunen.
Er zijn 40 talen beschikbaar. Selecteer een willekeurige combinatie bij het uitvoeren van een verrijking.
enEnglishzhChinesehiHindiesSpanisharArabicfrFrenchbnBengaliptPortugueseruRussianjaJapanesedeGermanurUrduviVietnamesetrTurkishkoKoreantaTamilmrMarathiteTelugupaPunjabiyueCantoneseitItalianplPolishukUkrainianroRomaniannlDutchelGreekcsCzechhuHungariansvSwedishsrSerbianbgBulgarianhrCroatianskSlovakdaDanishfiFinnishnoNorwegianltLithuanianslSlovenianlvLatvianetEstonianDe meertalige vlag is alleen geldig op bepaalde eigenschapstypes. De schema-editor dwingt dit automatisch af.
| Type eigenschap | Meertalig? | Uitvoerformaat |
|---|---|---|
| string | Ja | dict[str, str] |
| number / integer | Ja | dict[str, float] |
| boolean | Ja | dict[str, bool] |
| array met primitieven | Ja | dict[str, list[str]] |
| object | Nee | Markeer in plaats daarvan afzonderlijke velden binnen het object |
| array met objecten | Nee | Markeer in plaats daarvan afzonderlijke velden binnen items |
| $ref | Nee | Markeer in plaats daarvan velden binnen de gerefereerde entiteit |
Meertalige ondersteuning is verweven in elke fase van de verrijkingspijplijn.
Bij het fuseren van resultaten van meerdere modellen worden meertalige velden per taal vergeleken.
| Scenario | Resolutie |
|---|---|
| Modellen zijn het eens over Engels maar verschillen over Frans | Engels gaat er direct doorheen; Frans wordt per taal opgelost via meerderheidsstemming of arbitrage |
| Het ene model heeft Arabisch, het andere niet | Voorkeur voor de niet-null-waarde (Arabisch blijft behouden) |
| Meertalige arrays verschillen in lengte per model | Unie van alle items per taal |