Entity Enricher zet twee soorten kennis om in gestructureerde, gevalideerde gegevens: wat Large Language Models al weten, en wat ongelezen in je eigen archieven ligt — PDF-documenten, afbeeldingen, audio-opnamen, officebestanden. Elk geëxtraheerd object krijgt een stabiele semantische identiteit, zodat verrijkingen zich opstapelen tot een samenhangend informatiesysteem in plaats van een stapel eenmalige resultaten.
Zie LLM's als gedistilleerde menselijke kennis — miljarden documenten, databases en webpagina's samengeperst tot doorzoekbare neurale netwerken. Entity Enricher biedt de interface om deze kennis te extraheren in een gestructureerd, betrouwbaar formaat dat past bij je datamodel. En omdat moderne models ook PDF's kunnen lezen, afbeeldingen kunnen zien en audio kunnen horen, extraheert dezelfde interface structuur uit je eigen content: de contracten, rapporten, scans en opnames die je bedrijf jarenlang heeft verzameld.
Elke verrijking put uit een of beide van deze bronnen. Ze vullen elkaar aan: het model levert wereldkennis en redenering; jouw documenten leveren de feiten die alleen binnen je organisatie bestaan.
Openbare feiten over bedrijven, medicijnen, plaatsen, producten, regelgeving — alles wat het model tijdens de training heeft geleerd. Geef het een identifier (een naam, een website) en een schema, en het vult de rest in: branche, oprichtingsjaar, hoofdkantoor, werkingsmechanismen. Geen document nodig.
De kennis die nooit in een database is beland: contracten, facturen, inspectierapporten, gescande formulieren, productfoto's, opgenomen gesprekken. Voeg ze toe aan een verrijking en het model haalt de velden van je schema rechtstreeks uit hun inhoud — geen handmatige OCR, transcriptie of kopiëren en plakken.
Zie Documentbijlagen voor ondersteunde formaten en leveringsmodi.
Een schema is niet zomaar een datastructuur — het is een geformaliseerde vraag die je stelt aan de collectieve kennis van de mensheid, of aan een specifiek document. Wanneer je een schema definieert met eigenschappen als companyName, industry en headquarters, vraag je in wezen: “Geef me, op basis van een bedrijfsidentificatie, de naam, de sector waarin het opereert en waar het hoofdkantoor is gevestigd.”
| Schemaconcept | Doel |
|---|---|
| Eigenschappen | De specifieke feiten die je wilt extraheren |
| Types | Het formaat dat je verwacht (string, getal, object, array) |
| Expertisedomeinen | Welke specialist moet antwoorden (farmaceutisch, financieel, geografisch) |
| Zoeksleutels | Identificatoren die helpen de entiteit in de kennisbank te lokaliseren |
| Semantische ID | Een stabiele, tot de organisatie beperkte identiteit zodat hetzelfde object uit de echte wereld herkend wordt tussen verrijkingen en je andere systemen |
| Behouden | Velden die ongewijzigd vanuit je invoer moeten worden doorgegeven |
| Meertalig | Velden geleverd in elke taal waarin je werkt — een eersteklas functie, geen achteraf toegevoegde vertaalstap |
Large Language Models vormen een nieuw soort kennisbank. In tegenstelling tot traditionele databases die exacte overeenkomsten op opgeslagen records teruggeven, begrijpen LLM's context, redeneren ze over onvolledige gegevens en generaliseren ze op basis van patronen. En ze zijn niet langer alleen tekstgericht: modellen met beeldverwerking lezen afbeeldingen en gescande pagina's, modellen met PDF-ondersteuning verwerken volledige documenten, en modellen met audio-ondersteuning beluisteren opnames.
Entity Enricher behandelt meerdere LLM's als verschillende kennisperspectieven. Elke provider brengt zijn eigen sterke punten mee — Claude blinkt uit in genuanceerd redeneren, GPT-4 heeft brede kennis, Gemini biedt meertalige diepgang en lokale Ollama-modellen houden je gegevens privé.
Door dezelfde verrijking op meerdere providers uit te voeren, kun je antwoorden vergelijken op betrouwbaarheid, consensus van meerdere experts samenvoegen en kosten afwegen tegen kwaliteit. Lees hier meer over in Multi-Model Enrichment.
Verrijking is het proces van het identificeren van de entiteit met behulp van zoeksleutels, het ophalen van relevante kennis uit de LLM en eventuele bijgevoegde documenten, het structureren van het antwoord volgens je schema, het valideren of de uitvoer overeenkomt met de verwachte types, het behouden van je oorspronkelijke gegevens waar aangegeven, en ten slotte het oplossen van de identiteit — waarbij elk object zijn stabiele semantische ID krijgt toegewezen.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }Elke verrijking staat op zichzelf. Vraag het twee keer en hetzelfde ding uit de echte wereld kan anders beschreven terugkomen — de ene dag “Acme Inc.”, de volgende “Acme Incorporated”; een bijwerking van een medicijn als “Headache”, “Céphalée” of “Cephalalgia”, afhankelijk van taal of model. Om echt op verrijkte data te kunnen bouwen, heb je een stabiele referentie nodig voor dezelfde entiteit.
Een semantische ID is een tot de organisatie beperkte identificatie die Entity Enricher aan een object toekent op basis van de sleutelvelden, gematcht op betekenis, niet op exacte spelling. Dezelfde entiteit levert dezelfde ID op bij verschillende verrijkingen, modellen, talen en momenten. Hij wordt automatisch toegekend nadat het model heeft gedraaid — nooit door de LLM verzonnen — en kan op elk object voorkomen: de hele entiteit, een genest object of elk item in een lijst.
cpt_abc123Dit is wat een stroom van enrichments verandert in een informatiesysteem dat je kunt laten groeien en bevragen:
| Gebruiken | Wat het mogelijk maakt |
|---|---|
| Samenvoegsleutel | Een stabiele sleutel om verrijkte records te koppelen aan je warehouse, CRM of master-datasysteem |
| Deduplicatie | Bijna-duplicaten die ontstaan over batches, modellen of jaren aan documenten samenvoegen tot één identiteit |
| Reconciliatie | Geef een bekende semantische ID terug en nieuwe feiten worden gekoppeld aan de entiteit die je al bijhoudt, in plaats van een nieuwe aan te maken |
| Kennisgraaf | Objecten waarnaar vanuit meerdere records wordt verwezen, komen samen in één node — relaties worden bevraagbaar |
Hoe resolutie werkt (exact-match cache, embeddings, gelijkeniswaarden) wordt behandeld in Semantische ID's.
De meeste bedrijven zitten op een archief dat nooit gestructureerd is: gedeelde schijven vol contracten en rapporten, gescand papier, e-mailbijlagen, opgenomen vergaderingen. Dat archief is een database — het kreeg alleen nooit rijen en kolommen. Door bijlagen (documenten als kennisbron), batchverrijking (parallelle verwerking) en semantische ID's (deduplicatie over het hele corpus) te combineren, wordt het er een.
Zie Batchverrijking voor de workflow in detail.
Gestructureerde kennis leeft niet alleen in tekst. Entity Enricher accepteert de formaten die je archief daadwerkelijk bevat en stuurt elk formaat naar modellen die het kunnen lezen.
Twee leveringsmodi maken dit mogelijk. In de binaire modus gaan de originele bytes naar het model, zodat er niets verloren gaat bij de conversie — de opmaak van een tabel, het detail van een foto, de woorden van een spreker. In de inline-tekstmodus wordt tekst één keer bij het uploaden geëxtraheerd en in elke prompt ingevoegd, wat werkt met elk model, ongeacht de mogelijkheden ervan.
Routering op basis van mogelijkheden betekent dat een bestand alleen bij modellen terechtkomt die het daadwerkelijk kunnen verwerken — je wordt gewaarschuwd voordat een verrijking start, niet nadat deze mislukt. Formaten en modi worden beschreven in Documentbijlagen.
Niet alle kennis is gelijk. Een vraag over werkingsmechanismen van geneesmiddelen vereist andere expertise dan een vraag over bedrijfsstructuur. Expertisedomeinen routeren schema-eigenschappen naar de juiste specialist binnen de LLM en activeren de relevante kennispatronen voor elk domein.
Bij gebruik van de multi-expertisestrategie krijgt elk domein zijn eigen gerichte LLM-aanroep met alleen de relevante schema-eigenschappen, wat de outputkwaliteit aanzienlijk verbetert.
LLM's kunnen fouten maken. Entity Enricher gebruikt meerdere lagen kwaliteitscontrole om fouten automatisch op te sporen en te herstellen:
Zoeksleutels voorkomen dat de LLM hallucineert over de verkeerde entiteit. Ze vervullen twee rollen:
De verrijkingsprompt benadrukt: “Je verrijkt deze specifieke entiteit die door deze zoeksleutels wordt geïdentificeerd.”
Zoeksleutels en semantische ID's zijn twee kanten van identiteit: zoeksleutels helpen de LLM de juiste entiteit te vinden tijdens de verrijking; semantische ID's geven het een blijvende identiteit waarop je systemen vertrouwen na de verrijking.
Voordat de verrijking begint, kan een optionele stap voor pre-flight-classificatie verifiëren dat de entiteit daadwerkelijk overeenkomt met het schematype. Dit voorkomt hallucinatie wanneer entiteiten niet overeenkomen — bijvoorbeeld het verrijken van “Titan” tegen een “Planeet”-schema terwijl Titan eigenlijk een maan is.
LLM-aanroepen brengen kosten met zich mee. Entity Enricher houdt tokengebruik, kosten per provider, kosten per verrijking en uitgaven per organisatie bij. Dit maakt budgetbewaking, providervergelijking (kosten versus kwaliteit) en optimalisatiebeslissingen mogelijk, zoals het gebruiken van goedkopere modellen voor eenvoudige velden — wat het meest van belang is bij het verwerken van een archief met duizenden documenten.
| Component | Conceptuele rol |
|---|---|
| Schema | De vraag die je stelt |
| LLM-providers | Verschillende kennisperspectieven |
| Bijlagen | Je archieven als kennisbron (PDF, afbeelding, audio, office) |
| Zoeksleutels | Entity-identiteitsankers tijdens verrijking |
| Semantische ID's | Stabiele identiteit na enrichment — de ruggengraat van je informatiesysteem |
| Expertisedomeinen | Specialistische routing |
| Strategieën | Hoe je LLM-aanroepen orkestreert |
| Batchverwerking | Parallelle enrichment op archiefschaal |
| Meertalig | Hetzelfde feit in elke taal waarin je werkt |
| Validatie | Kwaliteitsborging |
| Behouden | Bescherming van data-integriteit |