Verrijk hetzelfde soort entiteit keer op keer en je blijft dezelfde dingen uit de echte wereld opnieuw ontdekken — hetzelfde bedrijf, dezelfde bijwerking van een medicijn, dezelfde persoon — elke keer met net iets andere woorden beschreven. Een semantische ID is een stabiele, tot de organisatie beperkte identifier die Entity Enricher aan een object toekent op basis van zijn sleutelvelden, zodat die bijna-duplicaten samenvallen tot één identiteit waarop je kunt groeperen, dedupliceren en joinen.
De identiteit van een object wordt opgebouwd uit de sleutelvelden — en dat kunnen er een of meerdere zijn. Twee voorbeelden:
nameHet verschijnt als Headache, Céphalée en Cephalalgia door verschillende runs en talen heen. Eén sleutelveld, drie schrijfwijzen, één echt concept.
naam + landAcme Inc. · United States en Acme Incorporated · United States zijn hetzelfde bedrijf — terwijl Acme Inc. · Germany een ander bedrijf is. De tweede sleutel maakt het onderscheid; daarom kan een object er meer dan één dragen.
Eenvoudige tekstvergelijking faalt bij al deze gevallen; een mens weet welke hetzelfde zijn. Semantische ID's leggen dat oordeel automatisch vast.
string-eigenschap op een object (standaard id genoemd), die een ondoorzichtige, stabiele identificator bevat.preserve): altijd een string, nooit een sleutel, nooit meertalig, hoogstens één per object.manufacturer), of elk item in een array (bijv. elke side_effect).Nadat het model zijn resultaat heeft geretourneerd, lost Entity Enricher elke semantische ID op in vier stappen — de goedkoopste eerst:
“Acme Inc.” en“Acme Incorporated” naast elkaar terechtkomen.0,92, per property instelbaar), wordt de ID van dat concept hergebruikt. Anders wordt een gloednieuwe ID aangemaakt en opgeslagen voor de volgende keer.Drempel-afweging: een hogere drempel is strenger (minder onbedoelde samenvoegingen); een lagere is losser (agressievere deduplicatie). Stel deze per eigenschap af wanneer de standaardwaarde van 0,92 te veel of te weinig samenvoegt.
Of er een ID wordt gegenereerd hangt ervan af of er al een aanwezig is in de invoer voor dat object. Dit is wat je in staat stelt om een round-trip te doen: verrijk één keer om ID's te verkrijgen en geef een bekend ID later terug bij volgende runs om nieuwe feiten aan dezelfde identiteit te koppelen — goedkoper en ondubbelzinnig.
Als het object dat je verstuurt al een semantische ID bevat, wordt het als een lookup behandeld: de ID wordt letterlijk behouden, het record wordt aan dat bestaande concept gekoppeld en er is geen embedding — geen kosten, geen match-of-mint. Je vertelt het platform “dit object is al geïdentificeerd in onze database.”
Als het object geen semantische ID heeft, genereert het platform er een met de vier bovenstaande stappen. Die ID wordt vanaf dat moment de stabiele identificator van het object in de database van je organisatie.
Een aanwezige maar onherkenbare waarde (geen echte concept-ID) wordt genegeerd en er wordt in plaats daarvan een ID gegenereerd.
Resolutie kost een klein beetje embeddinggebruik per enrichment (afgerekend zoals elke modelaanroep). De exacte-match-cache maakt herhalingen gratis en door de invoer aangeleverde ID's kosten niets.
Geresolvede ID's verschijnen in de JSON-uitvoer van de enrichment (het id-veld op elk object) en in de semantische concepten van het recorddetail. Gebruik ze om:
Fusie verzoent meningsverschillen tussen modellen binnen één run; semantische ID's verzoenen dezelfde entiteit over runs en tijd heen. De twee werken samen.