Entity Enricher puede producir resultados de enriquecimiento en hasta 40 idiomas simultáneamente. Los campos multilingües se almacenan como objetos JSON indexados por idioma, un formato portátil, consultable y compatible con todas las bases de datos principales.
En el editor de esquemas, active la marca multilingüe en cualquier propiedad de tipo cadena o array de cadenas. Cuando está habilitada, el LLM devuelve los valores envueltos en un objeto con clave de idioma en lugar de un valor simple.
multilingual: true en el esquema JSON.multilingual: true). Use el botón ↑ en cualquier otra ficha para promoverlo como principal. El backend también filtra cualquier clave de idioma no deseada que el LLM pueda emitir y que no esté en su selección.dict[str, T], donde las claves son códigos de idioma ISO 639-1 y los valores coinciden con el tipo del campo.Los valores multilingües se almacenan como objetos JSON con códigos de idioma como claves. Este formato se eligió frente a otras alternativas por su portabilidad, facilidad de consulta y eficiencia de almacenamiento.
Los campos sin multilingual: true se devuelven como valores simples. Los identificadores, códigos, URL, fechas y números suelen permanecer no multilingües.
Existen dos enfoques para las matrices multilingües. Entity Enricher utiliza el Formato A (objeto indexado por idioma) porque es el único formato que funciona tal cual en todas las bases de datos principales sin necesidad de transformación.
| Criterios | A Objeto indexado por idioma | B Array de elementos localizados |
|---|---|---|
| Estructura | {"en": [...], "fr": [...]} | [{"en": "x", "fr": "y"}, ...] |
| Consultar un idioma | Acceso directodata -> 'field' -> 'en' | Requiere iteraciónjsonb_array_elements + extract |
| Agregar un idioma | Añada una clave al objeto | Actualizar todos los elementos del array |
| Coherente con los escalares | Sí — mismo patrón {"en": "...", "fr": "..."} | No — forma diferente para cadenas frente a arrays |
| Portabilidad de la base de datos | Todas las bases de datos principales | Todas las bases de datos principales |
El formato con clave de idioma se puede consultar de forma nativa en todas las principales bases de datos que admiten columnas JSON.
Hay 40 idiomas disponibles. Seleccione cualquier combinación al ejecutar un enriquecimiento.
enEnglishzhChinesehiHindiesSpanisharArabicfrFrenchbnBengaliptPortugueseruRussianjaJapanesedeGermanurUrduviVietnamesetrTurkishkoKoreantaTamilmrMarathiteTelugupaPunjabiyueCantoneseitItalianplPolishukUkrainianroRomaniannlDutchelGreekcsCzechhuHungariansvSwedishsrSerbianbgBulgarianhrCroatianskSlovakdaDanishfiFinnishnoNorwegianltLithuanianslSlovenianlvLatvianetEstonianEl indicador multilingüe solo es válido en ciertos tipos de propiedad. El editor de esquemas lo aplica automáticamente.
| Tipo de propiedad | ¿Multilingüe? | Formato de salida |
|---|---|---|
| string | Sí | dict[str, str] |
| number / integer | Sí | dict[str, float] |
| boolean | Sí | dict[str, bool] |
| array de primitivos | Sí | dict[str, list[str]] |
| object | No | Marcar campos individuales dentro del objeto en su lugar |
| array de objetos | No | Marcar campos individuales dentro de los elementos en su lugar |
| $ref | No | Marcar campos dentro de la entity referenciada en su lugar |
La compatibilidad multilingüe está integrada en cada etapa del pipeline de enriquecimiento.
Al fusionar resultados de varios models, los campos multilingües se comparan por idioma.
| Escenario | Resolución |
|---|---|
| Los modelos coinciden en inglés pero difieren en francés | El inglés pasa directamente; el francés se resuelve por idioma mediante voto mayoritario o arbitraje |
| Un modelo tiene árabe, otro no | Preferir el valor no nulo (se conserva el árabe) |
| Los arrays multilingües difieren en longitud según el modelo | Unión de todos los elementos por idioma |