Reichern Sie immer wieder dieselbe Art von Entität an, und Sie entdecken immer wieder dieselben realen Dinge — dasselbe Unternehmen, dieselbe Arzneimittel-Nebenwirkung, dieselbe Person — jedes Mal mit leicht unterschiedlichen Worten beschrieben. Eine semantische ID ist eine stabile, organisationsbezogene Kennung, die Entity Enricher einem Objekt aus seinen Schlüsselfeldern zuweist, sodass diese Beinahe-Duplikate zu einer Identität zusammenfallen, nach der Sie gruppieren, deduplizieren und verknüpfen können.
Die Identität eines Objekts wird aus seinen Schlüsselfeldern gebildet – und es kann eines oder mehrere geben. Zwei Beispiele:
name identifiziert wirdEs erscheint über verschiedene Durchläufe und Sprachen hinweg als Headache, Céphalée und Cephalalgia. Ein Schlüsselfeld, drei Schreibweisen, ein reales Konzept.
Name + LandAcme Inc. · United States und Acme Incorporated · United States sind dasselbe Unternehmen – Acme Inc. · Germany hingegen ist ein anderes. Der zweite Schlüssel sorgt für Eindeutigkeit; deshalb kann ein Objekt mehr als einen tragen.
Einfacher Zeichenkettenabgleich scheitert an all diesen Fällen; ein Mensch weiß, welche identisch sind. Semantische IDs kodieren diese Einschätzung automatisch.
string-Eigenschaft eines Objekts (standardmäßig id genannt), die eine opake, stabile Kennung enthält.preserve): immer ein String, niemals ein Schlüssel, niemals mehrsprachig, höchstens eines pro Objekt.manufacturer) oder jedes Element in einem Array (z. B. jedes side_effect).Nachdem das Modell sein Ergebnis zurückgegeben hat, löst Entity Enricher jede semantische ID in vier Schritten auf – zuerst die günstigste:
„Acme Inc.“ und„Acme Incorporated“ nebeneinander landen.0,92, pro Eigenschaft anpassbar), wird die ID dieses Konzepts wiederverwendet. Andernfalls wird eine brandneue ID erzeugt und für das nächste Mal gespeichert.Schwellenwert-Kompromiss: Ein höherer Schwellenwert ist strenger (weniger versehentliche Zusammenführungen); ein niedrigerer ist lockerer (aggressivere Deduplizierung). Passen Sie ihn pro Eigenschaft an, wenn der Standardwert 0,92 zu viel oder zu wenig zusammenführt.
Ob eine ID generiert wird, hängt davon ab, ob für dieses Objekt bereits eine in der Eingabe vorhanden ist. Genau das ermöglicht den Round-Trip: Reichern Sie einmal an, um IDs zu erhalten, und geben Sie später eine bekannte ID zurück, um neue Fakten derselben Identität zuzuordnen — günstiger und eindeutig.
Wenn das gesendete Objekt bereits eine semantische ID enthält, wird es als Nachschlagevorgang behandelt: Die ID wird unverändert übernommen, der Datensatz wird mit diesem bestehenden Konzept verknüpft, und es findet kein Embedding statt – keine Kosten, kein Match-or-Mint. Sie teilen der Plattform mit: „Dieses Objekt ist in unserer Datenbank bereits identifiziert.“
Wenn das Objekt keine semantische ID hat, generiert die Plattform eine mit den vier oben genannten Schritten. Diese ID wird von da an zum stabilen Bezeichner des Objekts in der Datenbank Ihrer Organisation.
Ein vorhandener, aber nicht erkennbarer Wert (keine echte Konzept-ID) wird ignoriert, und stattdessen wird eine ID generiert.
Die Auflösung verursacht pro Enrichment einen geringen Embedding-Verbrauch (wie jeder Modellaufruf abgerechnet). Der Exact-Match-Cache macht Wiederholungen kostenlos, und über die Eingabe bereitgestellte IDs kosten nichts.
Aufgelöste IDs erscheinen im Enrichment-Ausgabe-JSON (im Feld id jedes Objekts) und in den semantischen Konzepten des Record-Details. Verwenden Sie sie, um:
Fusion gleicht Unstimmigkeiten zwischen Modellen innerhalb eines einzelnen Laufs ab; semantische IDs gleichen dieselbe Entität über Läufe und Zeit hinweg ab. Beide arbeiten zusammen.