Semantic IDs – Entity Enricher Dokumentation

Semantic IDs

Reichern Sie immer wieder dieselbe Art von Entität an, und Sie entdecken immer wieder dieselben realen Dinge — dasselbe Unternehmen, dieselbe Arzneimittel-Nebenwirkung, dieselbe Person — jedes Mal mit leicht unterschiedlichen Worten beschrieben. Eine semantische ID ist eine stabile, organisationsbezogene Kennung, die Entity Enricher einem Objekt aus seinen Schlüsselfeldern zuweist, sodass diese Beinahe-Duplikate zu einer Identität zusammenfallen, nach der Sie gruppieren, deduplizieren und verknüpfen können.

Das Problem: dasselbe, aber anders formuliert

Die Identität eines Objekts wird aus seinen Schlüsselfeldern gebildet – und es kann eines oder mehrere geben. Zwei Beispiele:

Ein Schlüssel

Ein Seiteneffekt, der über name identifiziert wird

Es erscheint über verschiedene Durchläufe und Sprachen hinweg als Headache, Céphalée und Cephalalgia. Ein Schlüsselfeld, drei Schreibweisen, ein reales Konzept.

Zwei Schlüssel

Ein Unternehmen, identifiziert über Name + Land

Acme Inc. · United States und Acme Incorporated · United States sind dasselbe Unternehmen – Acme Inc. · Germany hingegen ist ein anderes. Der zweite Schlüssel sorgt für Eindeutigkeit; deshalb kann ein Objekt mehr als einen tragen.

Einfacher Zeichenkettenabgleich scheitert an all diesen Fällen; ein Mensch weiß, welche identisch sind. Semantische IDs kodieren diese Einschätzung automatisch.

Was eine semantische ID ist

So funktioniert es

Nachdem das Modell sein Ergebnis zurückgegeben hat, löst Entity Enricher jede semantische ID in vier Schritten auf – zuerst die günstigste:

1
Den Identitätstext verfassen
Verbinden Sie alle Schlüsselfelder des Objekts — plus die Schlüssel aller darin enthaltenen 1-zu-1-verschachtelten Objekte — zu einer einzigen Zeichenkette in Ihrer Primärsprache. Elemente innerhalb von Arrays werden nicht einbezogen: Jedes Array-Element besitzt seine eigene Identität. Der Text wird normalisiert (in Kleinbuchstaben umgewandelt, Klammerausdrücke entfernt, Leerzeichen zusammengefasst), um triviale Unterschiede zu verringern.
2
Nach einer exakten Übereinstimmung suchen
Wenn genau dieser normalisierte Text in Ihrer Organisation bereits gesehen wurde, wird seine vorhandene ID sofort wiederverwendet – kein Modellaufruf, keine Kosten.
3
Einbetten & vergleichen
Andernfalls wird der Text eingebettet und anhand der Bedeutung mittels Vektorähnlichkeit mit bestehenden Konzepten desselben Typs verglichen – sodass „Acme Inc.“ und„Acme Incorporated“ nebeneinander landen.
4
Wiederverwenden oder neu erzeugen
Wenn die nächste Übereinstimmung über der Ähnlichkeitsschwelle liegt (Standard 0,92, pro Eigenschaft anpassbar), wird die ID dieses Konzepts wiederverwendet. Andernfalls wird eine brandneue ID erzeugt und für das nächste Mal gespeichert.

Schwellenwert-Kompromiss: Ein höherer Schwellenwert ist strenger (weniger versehentliche Zusammenführungen); ein niedrigerer ist lockerer (aggressivere Deduplizierung). Passen Sie ihn pro Eigenschaft an, wenn der Standardwert 0,92 zu viel oder zu wenig zusammenführt.

Eingabe-IDs vs. generierte IDs

Ob eine ID generiert wird, hängt davon ab, ob für dieses Objekt bereits eine in der Eingabe vorhanden ist. Genau das ermöglicht den Round-Trip: Reichern Sie einmal an, um IDs zu erhalten, und geben Sie später eine bekannte ID zurück, um neue Fakten derselben Identität zuzuordnen — günstiger und eindeutig.

ID bereits in der Eingabe → beibehalten (Nachschlagen)

Wenn das gesendete Objekt bereits eine semantische ID enthält, wird es als Nachschlagevorgang behandelt: Die ID wird unverändert übernommen, der Datensatz wird mit diesem bestehenden Konzept verknüpft, und es findet kein Embedding statt – keine Kosten, kein Match-or-Mint. Sie teilen der Plattform mit: „Dieses Objekt ist in unserer Datenbank bereits identifiziert.“

Keine ID in der Eingabe → generiert

Wenn das Objekt keine semantische ID hat, generiert die Plattform eine mit den vier oben genannten Schritten. Diese ID wird von da an zum stabilen Bezeichner des Objekts in der Datenbank Ihrer Organisation.

Ein vorhandener, aber nicht erkennbarer Wert (keine echte Konzept-ID) wird ignoriert, und stattdessen wird eine ID generiert.

So aktivieren Sie es

1
Wählen Sie ein Embedding-Modell (einmal pro Organisation)
Ein Inhaber wählt in Model Management ein einbettungsfähiges Modell als Standard-Einbettungsmodell der Organisation aus. Es ist nahezu unveränderlich: Sobald Konzepte existieren, kann es nur gelöscht, nicht gewechselt werden (gespeicherte Vektoren sind über Modelle hinweg nicht vergleichbar). Ohne es werden semantische IDs einfach übersprungen.
2
Semantische IDs zum Schema hinzufügen
Zwei Möglichkeiten, beide im Schema-Editor:
  • Automatisch bei der Generierung – aktivieren Sie „Semantische IDs für Typen generieren“; jedes Objekt mit einem Schlüssel (einem eigenen oder einem an einem 1-zu-1 verschachtelten Objekt) erhält eine, einschließlich der Root-Entität.
  • Manuell – verwenden Sie das Steuerelement „+ Semantische ID hinzufügen“ an einem beliebigen Objekt oder in der Fußzeile der Entität.

Die Auflösung verursacht pro Enrichment einen geringen Embedding-Verbrauch (wie jeder Modellaufruf abgerechnet). Der Exact-Match-Cache macht Wiederholungen kostenlos, und über die Eingabe bereitgestellte IDs kosten nichts.

Wo die IDs erscheinen und was damit zu tun ist

Aufgelöste IDs erscheinen im Enrichment-Ausgabe-JSON (im Feld id jedes Objekts) und in den semantischen Konzepten des Record-Details. Verwenden Sie sie, um:

Ergänzt die Multi-Modell-Fusion

Fusion gleicht Unstimmigkeiten zwischen Modellen innerhalb eines einzelnen Laufs ab; semantische IDs gleichen dieselbe Entität über Läufe und Zeit hinweg ab. Beide arbeiten zusammen.