Kernconcepten - Entity Enricher Documentatie

Kernconcepten

Entity Enricher zet twee soorten kennis om in gestructureerde, gevalideerde gegevens: wat Large Language Models al weten, en wat ongelezen in je eigen archieven ligt — PDF-documenten, afbeeldingen, audio-opnamen, officebestanden. Elk geëxtraheerd object krijgt een stabiele semantische identiteit, zodat verrijkingen zich opstapelen tot een samenhangend informatiesysteem in plaats van een stapel eenmalige resultaten.

Het kernidee

Zie LLM's als gedistilleerde menselijke kennis — miljarden documenten, databases en webpagina's samengeperst tot doorzoekbare neurale netwerken. Entity Enricher biedt de interface om deze kennis te extraheren in een gestructureerd, betrouwbaar formaat dat past bij je datamodel. En omdat moderne models ook PDF's kunnen lezen, afbeeldingen kunnen zien en audio kunnen horen, extraheert dezelfde interface structuur uit je eigen content: de contracten, rapporten, scans en opnames die je bedrijf jarenlang heeft verzameld.

Je gegevens en archieven

Gedeeltelijke records

Ruwe identificatoren

PDF's en scans

Afbeeldingen & audio

Schema + LLM

“Wat wil ik weten?”

Je informatiesysteem

Gestructureerde profielen

Classificaties

Meertalige velden

Stabiele semantic ID's

Twee kennisbronnen

Elke verrijking put uit een of beide van deze bronnen. Ze vullen elkaar aan: het model levert wereldkennis en redenering; jouw documenten leveren de feiten die alleen binnen je organisatie bestaan.

1. De trainingskennis van het model

Openbare feiten over bedrijven, medicijnen, plaatsen, producten, regelgeving — alles wat het model tijdens de training heeft geleerd. Geef het een identifier (een naam, een website) en een schema, en het vult de rest in: branche, oprichtingsjaar, hoofdkantoor, werkingsmechanismen. Geen document nodig.

2. Je ongestructureerde archieven

De kennis die nooit in een database is beland: contracten, facturen, inspectierapporten, gescande formulieren, productfoto's, opgenomen gesprekken. Voeg ze toe aan een verrijking en het model haalt de velden van je schema rechtstreeks uit hun inhoud — geen handmatige OCR, transcriptie of kopiëren en plakken.

Zie Documentbijlagen voor ondersteunde formaten en leveringsmodi.

Drie pijlers

1. Het schema: je vraag aan de kennisbank

Een schema is niet zomaar een datastructuur — het is een geformaliseerde vraag die je stelt aan de collectieve kennis van de mensheid, of aan een specifiek document. Wanneer je een schema definieert met eigenschappen als companyName, industry en headquarters, vraag je in wezen: “Geef me, op basis van een bedrijfsidentificatie, de naam, de sector waarin het opereert en waar het hoofdkantoor is gevestigd.”

Schemaconcept	Doel
Eigenschappen	De specifieke feiten die je wilt extraheren
Types	Het formaat dat je verwacht (string, getal, object, array)
Expertisedomeinen	Welke specialist moet antwoorden (farmaceutisch, financieel, geografisch)
Zoeksleutels	Identificatoren die helpen de entiteit in de kennisbank te lokaliseren
Semantische ID	Een stabiele, tot de organisatie beperkte identiteit zodat hetzelfde object uit de echte wereld herkend wordt tussen verrijkingen en je andere systemen
Behouden	Velden die ongewijzigd vanuit je invoer moeten worden doorgegeven
Meertalig	Velden geleverd in elke taal waarin je werkt — een eersteklas functie, geen achteraf toegevoegde vertaalstap

2. De LLM: opvraagbare kennis, multimodale lezer

Large Language Models vormen een nieuw soort kennisbank. In tegenstelling tot traditionele databases die exacte overeenkomsten op opgeslagen records teruggeven, begrijpen LLM's context, redeneren ze over onvolledige gegevens en generaliseren ze op basis van patronen. En ze zijn niet langer alleen tekstgericht: modellen met beeldverwerking lezen afbeeldingen en gescande pagina's, modellen met PDF-ondersteuning verwerken volledige documenten, en modellen met audio-ondersteuning beluisteren opnames.

Entity Enricher behandelt meerdere LLM's als verschillende kennisperspectieven. Elke provider brengt zijn eigen sterke punten mee — Claude blinkt uit in genuanceerd redeneren, GPT-4 heeft brede kennis, Gemini biedt meertalige diepgang en lokale Ollama-modellen houden je gegevens privé.

Door dezelfde verrijking op meerdere providers uit te voeren, kun je antwoorden vergelijken op betrouwbaarheid, consensus van meerdere experts samenvoegen en kosten afwegen tegen kwaliteit. Lees hier meer over in Multi-Model Enrichment.

3. De verrijking: gestructureerde kennisextractie

Verrijking is het proces van het identificeren van de entiteit met behulp van zoeksleutels, het ophalen van relevante kennis uit de LLM en eventuele bijgevoegde documenten, het structureren van het antwoord volgens je schema, het valideren of de uitvoer overeenkomt met de verwachte types, het behouden van je oorspronkelijke gegevens waar aangegeven, en ten slotte het oplossen van de identiteit — waarbij elk object zijn stabiele semantische ID krijgt toegewezen.

Invoer

{ "name": "Novartis", "website": "novartis.com" }

Sleutels extraheren → LLM bevragen → Valideren → Identiteit oplossen

Uitvoer

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Van enrichments naar een informatiesysteem

Elke verrijking staat op zichzelf. Vraag het twee keer en hetzelfde ding uit de echte wereld kan anders beschreven terugkomen — de ene dag “Acme Inc.”, de volgende “Acme Incorporated”; een bijwerking van een medicijn als “Headache”, “Céphalée” of “Cephalalgia”, afhankelijk van taal of model. Om echt op verrijkte data te kunnen bouwen, heb je een stabiele referentie nodig voor dezelfde entiteit.

Een semantische ID is een tot de organisatie beperkte identificatie die Entity Enricher aan een object toekent op basis van de sleutelvelden, gematcht op betekenis, niet op exacte spelling. Dezelfde entiteit levert dezelfde ID op bij verschillende verrijkingen, modellen, talen en momenten. Hij wordt automatisch toegekend nadat het model heeft gedraaid — nooit door de LLM verzonnen — en kan op elk object voorkomen: de hele entiteit, een genest object of elk item in een lijst.

Verrijkingsrun #1

“Acme Inc.”

dezelfde semantische ID

cpt_abc123

Uitvoering #2 — later, ander model of andere taal

“Acme Incorporated”

Dit is wat een stroom van enrichments verandert in een informatiesysteem dat je kunt laten groeien en bevragen:

Gebruiken	Wat het mogelijk maakt
Samenvoegsleutel	Een stabiele sleutel om verrijkte records te koppelen aan je warehouse, CRM of master-datasysteem
Deduplicatie	Bijna-duplicaten die ontstaan over batches, modellen of jaren aan documenten samenvoegen tot één identiteit
Reconciliatie	Geef een bekende semantische ID terug en nieuwe feiten worden gekoppeld aan de entiteit die je al bijhoudt, in plaats van een nieuwe aan te maken
Kennisgraaf	Objecten waarnaar vanuit meerdere records wordt verwezen, komen samen in één node — relaties worden bevraagbaar

Hoe resolutie werkt (exact-match cache, embeddings, gelijkeniswaarden) wordt behandeld in Semantische ID's.

Decennia aan archieven doorzoeken

De meeste bedrijven zitten op een archief dat nooit gestructureerd is: gedeelde schijven vol contracten en rapporten, gescand papier, e-mailbijlagen, opgenomen vergaderingen. Dat archief is een database — het kreeg alleen nooit rijen en kolommen. Door bijlagen (documenten als kennisbron), batchverrijking (parallelle verwerking) en semantische ID's (deduplicatie over het hele corpus) te combineren, wordt het er een.

Archiefbestanden

Toevoegen aan enrichment

Schema als de extractievraag

Gevalideerde gestructureerde records

Semantische identiteit en ontdubbeling

Je database

Batch op schaal — entities worden parallel verrijkt met live voortgang per entity, kostenramingen vooraf en selectieve nieuwe poging voor de enkele die mislukken
Bewaakte extractie — classificatie vooraf en schemavalidatie voorkomen dat een verkeerd ingediend document je records vervuilt met zelfverzekerde onzin
Convergente identiteit — dezelfde leverancier die in een contract uit 2009 en een factuur uit 2024 voorkomt, wordt herleid tot dezelfde semantische ID, zodat het archief samensmelt tot schone stamgegevens
Naar buiten via de API — resultaten exporteren als gevalideerde JSON of stromen rechtstreeks je systemen in via de REST-API en connectoren (n8n, Make, MCP)

Zie Batchverrijking voor de workflow in detail.

Verder dan tekst: multimodale bronnen

Gestructureerde kennis leeft niet alleen in tekst. Entity Enricher accepteert de formaten die je archief daadwerkelijk bevat en stuurt elk formaat naar modellen die het kunnen lezen.

PDF-documenten

Volledige documenten met lay-out, tabellen en figuren — native gelezen door PDF-capabele modellen

Afbeeldingen

Foto's, scans, diagrammen, productfoto's — geïnterpreteerd door vision-modellen, geen aparte OCR-stap

Audio

Opgenomen gesprekken, vergaderingen en spraaknotities — direct beluisterd door audiogeschikte modellen

Office & tekst

Word, Excel, PowerPoint, HTML, CSV, Markdown — tekst wordt server-side geëxtraheerd en inline geplaatst

Twee leveringsmodi maken dit mogelijk. In de binaire modus gaan de originele bytes naar het model, zodat er niets verloren gaat bij de conversie — de opmaak van een tabel, het detail van een foto, de woorden van een spreker. In de inline-tekstmodus wordt tekst één keer bij het uploaden geëxtraheerd en in elke prompt ingevoegd, wat werkt met elk model, ongeacht de mogelijkheden ervan.

Routering op basis van mogelijkheden betekent dat een bestand alleen bij modellen terechtkomt die het daadwerkelijk kunnen verwerken — je wordt gewaarschuwd voordat een verrijking start, niet nadat deze mislukt. Formaten en modi worden beschreven in Documentbijlagen.

Expertisedomeinen: de juiste specialist raadplegen

Niet alle kennis is gelijk. Een vraag over werkingsmechanismen van geneesmiddelen vereist andere expertise dan een vraag over bedrijfsstructuur. Expertisedomeinen routeren schema-eigenschappen naar de juiste specialist binnen de LLM en activeren de relevante kennispatronen voor elk domein.

pharmaceutical

Geneesmiddelnamen, werkingsmechanismen, indicaties, regelgevingsstatus

business_classification

Branchecodes, bedrijfstypen, marktsegmenten

geographic

Locaties, regio's, landspecifieke informatie

financial

Omzet, marktkapitalisatie, financieringsrondes

temporal

Datums, periodes, historische gebeurtenissen

regulatory

Goedkeuringen, licenties, nalevingsstatus

Bij gebruik van de multi-expertisestrategie krijgt elk domein zijn eigen gerichte LLM-aanroep met alleen de relevante schema-eigenschappen, wat de outputkwaliteit aanzienlijk verbetert.

Kwaliteitscontroles

Validatie en zelfcorrectie

LLM's kunnen fouten maken. Entity Enricher gebruikt meerdere lagen kwaliteitscontrole om fouten automatisch op te sporen en te herstellen:

Typevalidatie — Zorgt ervoor dat de uitvoer overeenkomt met de schematypes (string, number, boolean, enz.)
Expertisevalidatie — Controleert of alle expertisedomeinen zijn gedefinieerd en eigenschappen bevatten
Zelfcorrectie — Wanneer validatie mislukt, worden fouten teruggestuurd naar de LLM voor automatische correctie (tot 5 pogingen)
Behoudlogica — Oorspronkelijke waarden voor behouden velden worden na de verrijking hersteld, wat de data-integriteit waarborgt

Zoeksleutels: identiteit verankeren tijdens verrijking

Zoeksleutels voorkomen dat de LLM hallucineert over de verkeerde entiteit. Ze vervullen twee rollen:

Zoeksleutels (naam, website) — Opzoekidentificatoren die de LLM helpen de juiste entiteit te vinden
Samenvoegsleutels (product_name in arrays) — Deduplicatiesleutels om array-items te matchen bij het samenvoegen van resultaten van meerdere modellen

De verrijkingsprompt benadrukt: “Je verrijkt deze specifieke entiteit die door deze zoeksleutels wordt geïdentificeerd.”

Zoeksleutels en semantische ID's zijn twee kanten van identiteit: zoeksleutels helpen de LLM de juiste entiteit te vinden tijdens de verrijking; semantische ID's geven het een blijvende identiteit waarop je systemen vertrouwen na de verrijking.

Pre-flightclassificatie

Voordat de verrijking begint, kan een optionele stap voor pre-flight-classificatie verifiëren dat de entiteit daadwerkelijk overeenkomt met het schematype. Dit voorkomt hallucinatie wanneer entiteiten niet overeenkomen — bijvoorbeeld het verrijken van “Titan” tegen een “Planeet”-schema terwijl Titan eigenlijk een maan is.

Kostenbewustzijn

LLM-aanroepen brengen kosten met zich mee. Entity Enricher houdt tokengebruik, kosten per provider, kosten per verrijking en uitgaven per organisatie bij. Dit maakt budgetbewaking, providervergelijking (kosten versus kwaliteit) en optimalisatiebeslissingen mogelijk, zoals het gebruiken van goedkopere modellen voor eenvoudige velden — wat het meest van belang is bij het verwerken van een archief met duizenden documenten.

Samenvatting

Component	Conceptuele rol
Schema	De vraag die je stelt
LLM-providers	Verschillende kennisperspectieven
Bijlagen	Je archieven als kennisbron (PDF, afbeelding, audio, office)
Zoeksleutels	Entity-identiteitsankers tijdens verrijking
Semantische ID's	Stabiele identiteit na enrichment — de ruggengraat van je informatiesysteem
Expertisedomeinen	Specialistische routing
Strategieën	Hoe je LLM-aanroepen orkestreert
Batchverwerking	Parallelle enrichment op archiefschaal
Meertalig	Hetzelfde feit in elke taal waarin je werkt
Validatie	Kwaliteitsborging
Behouden	Bescherming van data-integriteit

Volgende stappen

Verrijkingsflow

Stapsgewijze uitleg van de verrijkingspijplijn

Semantische ID's

Stabiele entity-identiteit voor deduplicatie en interoperabiliteit

Documentbijlagen

PDF's, afbeeldingen, audio en officebestanden als verrijkingsbronnen

Batchverrijking

Parallelle verwerking voor lijsten en archieven

Verrijkingsstrategieën

Vergelijk single-pass- vs multi-expertise-aanpakken

Multimodelfusie

Conflictdetectie en -oplossing tussen modellen