Entity Enricher kann Anreicherungsergebnisse in bis zu 40 Sprachen gleichzeitig erzeugen. Mehrsprachige Felder werden als JSON-Objekte mit Sprachschlüsseln gespeichert – ein Format, das portabel, abfragbar und mit jeder gängigen Datenbank kompatibel ist.
Schalten Sie im Schema-Editor das Flag „Mehrsprachig“ für eine beliebige String- oder String-Array-Eigenschaft um. Wenn aktiviert, gibt das LLM die Werte in einem nach Sprache verschlüsselten Objekt statt als einfachen Wert zurück.
multilingual: true im JSON-Schema gespeichert.multilingual: true markiert sind). Verwenden Sie die Schaltfläche ↑ bei einem beliebigen anderen Chip, um ihn zur Hauptsprache zu befördern. Das Backend filtert außerdem alle vereinzelten Sprachschlüssel heraus, die das LLM möglicherweise ausgibt und die nicht in Ihrer Auswahl enthalten sind.dict[str, T], wobei die Schlüssel ISO-639-1-Sprachcodes sind und die Werte dem Feldtyp entsprechen.Mehrsprachige Werte werden als JSON-Objekte mit Sprachcodes als Schlüsseln gespeichert. Dieses Format wurde gegenüber Alternativen wegen seiner Portabilität, Abfragbarkeit und Speichereffizienz gewählt.
Felder ohne multilingual: true werden als einfache Werte zurückgegeben. Bezeichner, Codes, URLs, Datumsangaben und Zahlen bleiben in der Regel nicht mehrsprachig.
Für mehrsprachige Arrays gibt es zwei Ansätze. Entity Enricher verwendet Format A (sprachschlüsselbasiertes Objekt), da es das einzige Format ist, das ohne Transformation unverändert in allen gängigen Datenbanken funktioniert.
| Kriterien | A Objekt mit Sprachschlüsseln | B Array lokalisierter Elemente |
|---|---|---|
| Struktur | {"en": [...], "fr": [...]} | [{"en": "x", "fr": "y"}, ...] |
| Eine Sprache abfragen | Direktzugriffdata -> 'field' -> 'en' | Erfordert Iterationjsonb_array_elements + extract |
| Sprache hinzufügen | Einen Schlüssel hinzufügen zum Objekt | Jedes Element aktualisieren im Array |
| Konsistent mit Skalaren | Ja – gleiches {"en": "...", "fr": "..."}-Muster | Nein — unterschiedliche Struktur für Strings im Vergleich zu Arrays |
| Datenbank-Portabilität | Alle wichtigen Datenbanken | Alle wichtigen Datenbanken |
Das sprachschlüsselbasierte Format ist in allen gängigen Datenbanken, die JSON-Spalten unterstützen, nativ abfragbar.
40 Sprachen stehen zur Verfügung. Wählen Sie beim Ausführen einer Anreicherung eine beliebige Kombination aus.
enEnglishzhChinesehiHindiesSpanisharArabicfrFrenchbnBengaliptPortugueseruRussianjaJapanesedeGermanurUrduviVietnamesetrTurkishkoKoreantaTamilmrMarathiteTelugupaPunjabiyueCantoneseitItalianplPolishukUkrainianroRomaniannlDutchelGreekcsCzechhuHungariansvSwedishsrSerbianbgBulgarianhrCroatianskSlovakdaDanishfiFinnishnoNorwegianltLithuanianslSlovenianlvLatvianetEstonianDas Mehrsprachig-Flag ist nur bei bestimmten Eigenschaftstypen gültig. Der Schema-Editor erzwingt dies automatisch.
| Eigenschaftstyp | Mehrsprachig? | Ausgabeformat |
|---|---|---|
| string | Ja | dict[str, str] |
| number / integer | Ja | dict[str, float] |
| boolean | Ja | dict[str, bool] |
| Array von Primitiven | Ja | dict[str, list[str]] |
| object | Nein | Markieren Sie stattdessen einzelne Felder innerhalb des Objekts |
| Array von Objekten | Nein | Markieren Sie stattdessen einzelne Felder innerhalb der Elemente |
| $ref | Nein | Markieren Sie stattdessen Felder innerhalb der referenzierten Entität |
Mehrsprachige Unterstützung ist in jede Phase der Anreicherungs-Pipeline eingebettet.
Beim Fusionieren von Ergebnissen mehrerer Modelle werden mehrsprachige Felder pro Sprache verglichen.
| Szenario | Auflösung |
|---|---|
| Modelle stimmen bei Englisch überein, unterscheiden sich aber bei Französisch | Englisch wird durchgereicht; Französisch wird pro Sprache per Mehrheitsentscheid oder Arbitrierung aufgelöst |
| Ein Modell beherrscht Arabisch, ein anderes nicht | Den nicht-leeren Wert bevorzugen (Arabisch wird beibehalten) |
| Mehrsprachige Arrays haben je Modell unterschiedliche Länge | Vereinigung aller Elemente pro Sprache |