المعرّفات الدلالية - وثائق Entity Enricher

المعرّفات الدلالية

أثرِ النوع نفسه من الكيانات مرارًا وتكرارًا وستظل تعيد اكتشاف الأشياء الواقعية نفسها — الشركة نفسها، والأثر الجانبي نفسه للدواء، والشخص نفسه — موصوفة بكلمات مختلفة قليلًا في كل مرة. المعرّف الدلالي هو معرّف ثابت على مستوى المؤسسة يمنحه Entity Enricher لكائن من حقوله الأساسية، بحيث تنهار تلك الأشياء شبه المكررة إلى هوية واحدة يمكنك التجميع وإزالة التكرار والربط عليها.

المشكلة: الشيء نفسه، بكلمات مختلفة

تُبنى هوية الكائن من حقوله الأساسية — وقد يكون هناك حقل واحد أو عدة حقول. مثالان:

مفتاح واحد

أثر جانبي مُفهرَس حسب الاسم

يظهر بصيغة Headache وCéphalée وCephalalgia عبر عمليات التشغيل واللغات المختلفة. حقل مفتاحي واحد، وثلاث طرق كتابة، ومفهوم حقيقي واحد.

مفتاحان

شركة مفهرسة بـالاسم + البلد

Acme Inc. · United States وAcme Incorporated · United States هما الشركة نفسها — بينما Acme Inc. · Germany شركة مختلفة. المفتاح الثاني يزيل الالتباس؛ ولهذا يمكن أن يحمل الكائن أكثر من مفتاح.

تفشل المطابقة النصية البسيطة في كل هذه الحالات؛ ويعرف الإنسان أيّها متطابق. أما المعرّفات الدلالية فتُرمّز ذلك الحكم تلقائيًا.

ما هو المعرّف الدلالي

كيف يعمل

بعد أن يُعيد النموذج نتيجته، يحلّ Entity Enricher كل معرّف دلالي عبر أربع خطوات — الأرخص أولًا:

1
أنشئ نص الهوية
ادمج جميع الحقول المفتاحية للكائن — بالإضافة إلى مفاتيح أي كائنات متداخلة بعلاقة 1-1 يحتويها — في سلسلة نصية واحدة، بلغتك الأساسية. العناصر داخل المصفوفات لا تُدرَج: كل عنصر في المصفوفة يملك هويته الخاصة. يُطبَّع النص (تحويل إلى أحرف صغيرة، وإسقاط ما بين الأقواس، ودمج المسافات) لتقليص الفروق الطفيفة.
2
ابحث عن تطابق تام
إذا سبق ظهور هذا النص المُطبَّع نفسه في مؤسستك، يُعاد استخدام معرّفه الحالي فورًا — دون استدعاء نموذج ودون تكلفة.
3
التضمين والمقارنة
وإلا يُضمَّن النص ويُقارَن، بحسب المعنى، بالمفاهيم الموجودة من النوع نفسه باستخدام التشابه المتجهي — بحيث يقع “Acme Inc.” و“Acme Incorporated” جنبًا إلى جنب.
4
إعادة الاستخدام أو الإصدار
إذا تجاوزت درجة أقرب تطابق عتبة التشابه (الافتراضية 0.92، وقابلة للضبط لكل خاصية)، يُعاد استخدام معرّف ذلك المفهوم. وإلا يُنشَأ معرّف جديد تمامًا ويُخزَّن للمرة القادمة.

موازنة العتبة: العتبة الأعلى أكثر صرامة (اندماجات عرضية أقل)؛ والأدنى أكثر تساهلًا (إزالة تكرار أكثر جرأةً). اضبطها لكل خاصية عندما يفرط الحد الافتراضي 0.92 في الدمج أو يقصّر عنه.

معرّفات المُدخل مقابل المعرّفات المُولَّدة

يعتمد ما إذا كان المعرّف يُنشأ على ما إذا كان موجودًا بالفعل في المُدخل لذلك الكائن. هذا ما يتيح لك الرحلة ذهابًا وإيابًا: أثرِ البيانات مرة واحدة للحصول على المعرّفات، ثم مرّر معرّفًا معروفًا في عمليات التشغيل اللاحقة لإرفاق حقائق جديدة بالهوية نفسها — أرخص وأوضح.

المعرّف موجود بالفعل في المدخلات ← يُحتفَظ به (بحث)

إذا كان الكائن الذي ترسله يحمل بالفعل معرّفًا دلاليًا، فيُعامَل كعملية بحث: يُحتفَظ بالمعرّف حرفيًا، ويُربَط السجل بذلك المفهوم الحالي، ولا يوجد تضمين — لا تكلفة ولا مطابقة أو إنشاء. أنت بذلك تخبر المنصّة "هذا الكائن مُعرَّف بالفعل في قاعدة بياناتنا".

لا يوجد معرّف في المُدخل → تم توليده

إذا لم يكن للكائن معرّف دلالي، تُنشئ المنصّة واحدًا بالخطوات الأربع أعلاه. ويصبح ذلك المعرّف هو المعرّف الثابت للكائن في قاعدة بيانات مؤسستك من تلك اللحظة فصاعدًا.

يُتجاهَل أي قيمة موجودة لكن غير قابلة للتعرّف عليها (وليست معرّف مفهوم حقيقي)، ويُولَّد معرّف بدلاً منها.

كيفية تفعيله

1
اختر نموذج تضمين (مرة واحدة لكل مؤسسة)
يختار المالك نموذجًا قادرًا على التضمين في إدارة النماذج ليكون نموذج التضمين الافتراضي للمؤسسة. وهو شبه ثابت: بمجرد وجود المفاهيم، يمكن مسحه فقط لا تبديله (المتجهات المخزنة غير قابلة للمقارنة عبر النماذج). وبدونه، تُتخطّى المعرّفات الدلالية ببساطة.
2
إضافة معرّفات دلالية إلى المخطط
طريقتان، كلتاهما في محرّر المخطط:
  • تلقائيًا عند التوليد — حدّد «توليد معرّفات دلالية للأنواع»؛ كل كائن له مفتاح (خاص به، أو على كائن متداخل بعلاقة واحد-لواحد) يحصل على واحد، بما في ذلك الكيان الجذر.
  • يدويًا — استخدم عنصر التحكم “+ إضافة معرّف دلالي” على أي كائن أو في تذييل الكِيان.

يكلّف الحل قدرًا صغيرًا من استخدام التضمين لكل عملية إثراء (يُحتسب مثل أي استدعاء نموذج). تجعل ذاكرة التخزين المؤقت للمطابقة التامة عمليات التكرار مجانية، ولا تكلّف المعرّفات المقدَّمة ضمن المدخلات شيئًا.

أين تظهر المعرّفات وماذا تفعل بها

تظهر المعرّفات المحلولة في مخرجات الإثراء بصيغة JSON (حقل id في كل كائن) وفي المفاهيم الدلالية لتفاصيل السجل. استخدمها من أجل:

يُكمّل الدمج متعدد النماذج

الدمج يوفّق بين الاختلافات عبر النماذج ضمن تشغيل واحد؛ بينما توفّق المعرّفات الدلالية بين الكِيان نفسه عبر عمليات التشغيل والزمن. ويعمل الاثنان معًا.