O Entity Enricher pode produzir resultados de enriquecimento em até 40 idiomas em simultâneo. Os campos multilingues são armazenados como objetos JSON indexados por idioma — um formato portável, consultável e compatível com todas as principais bases de dados.
No editor de schemas, ative o sinalizador multilingue em qualquer propriedade de string ou array de strings. Quando ativado, o LLM devolve os valores envolvidos num objeto indexado por idioma em vez de um valor simples.
multilingual: true no schema JSON.multilingual: true). Use o botão ↑ em qualquer outro chip para o promover a principal. O backend também filtra quaisquer chaves de idioma perdidas que o LLM possa emitir e que não estejam na sua seleção.dict[str, T], em que as chaves são códigos de idioma ISO 639-1 e os valores correspondem ao tipo do campo.Os valores multilingues são armazenados como objetos JSON com códigos de idioma como chaves. Este formato foi escolhido em detrimento de alternativas pela sua portabilidade, capacidade de consulta e eficiência de armazenamento.
Os campos sem multilingual: true são devolvidos como valores simples. Identificadores, códigos, URLs, datas e números normalmente permanecem não multilingues.
Existem duas abordagens para arrays multilingues. O Entity Enricher usa o Formato A (objeto indexado por idioma) porque é o único formato que funciona tal como está em todas as principais bases de dados sem transformação.
| Critérios | A Objeto indexado por idioma | B Array de itens localizados |
|---|---|---|
| Estrutura | {"en": [...], "fr": [...]} | [{"en": "x", "fr": "y"}, ...] |
| Consultar um idioma | Acesso diretodata -> 'field' -> 'en' | Requer iteraçãojsonb_array_elements + extract |
| Adicionar um idioma | Adicione uma chave ao objeto | Atualizar todos os itens no array |
| Coerente com escalares | Sim — mesmo padrão {"en": "...", "fr": "..."} | Não — formato diferente para strings vs. arrays |
| Portabilidade da base de dados | Todas as principais bases de dados | Todas as principais bases de dados |
O formato indexado por idioma é consultável nativamente em todas as principais bases de dados que suportam colunas JSON.
Estão disponíveis 40 idiomas. Selecione qualquer combinação ao executar um enriquecimento.
enEnglishzhChinesehiHindiesSpanisharArabicfrFrenchbnBengaliptPortugueseruRussianjaJapanesedeGermanurUrduviVietnamesetrTurkishkoKoreantaTamilmrMarathiteTelugupaPunjabiyueCantoneseitItalianplPolishukUkrainianroRomaniannlDutchelGreekcsCzechhuHungariansvSwedishsrSerbianbgBulgarianhrCroatianskSlovakdaDanishfiFinnishnoNorwegianltLithuanianslSlovenianlvLatvianetEstonianA flag multilingue só é válida em certos tipos de propriedade. O editor de esquemas impõe isto automaticamente.
| Tipo de Propriedade | Multilingue? | Formato de saída |
|---|---|---|
| string | Sim | dict[str, str] |
| number / integer | Sim | dict[str, float] |
| boolean | Sim | dict[str, bool] |
| array de primitivos | Sim | dict[str, list[str]] |
| object | Não | Em vez disso, marque campos individuais dentro do objeto |
| array de objetos | Não | Em vez disso, marque campos individuais dentro dos itens |
| $ref | Não | Em vez disso, marque campos dentro da entidade referenciada |
O suporte multilingue está integrado em todas as fases do pipeline de enriquecimento.
Ao fundir resultados de vários modelos, os campos multilingues são comparados por idioma.
| Cenário | Resolução |
|---|---|
| Os modelos concordam em inglês mas divergem em francês | O inglês passa diretamente; o francês é resolvido por idioma através de votação por maioria ou arbitragem |
| Um modelo tem árabe, outro não | Preferir o valor não nulo (o árabe é mantido) |
| Os arrays multilingues diferem em comprimento por modelo | União de todos os itens por idioma |