Pre-flightclassificatie - Entity Enricher-documentatie

Pre-flightclassificatie

Pre-flightclassificatie verifieert dat een entiteit overeenkomt met het verwachte schematype voordat de verrijking begint. Deze optionele stap voorkomt hallucinatie en verspilde tokens wanneer entiteiten niet overeenkomen met je schema.

Waarom classificeren vóór verrijken?

LLM's zijn happig om te helpen. Wanneer je ze vraagt een entiteit tegen een schema te verrijken, produceren ze gestructureerde output, zelfs als de entiteit helemaal niet bij het schematype past. Dit leidt tot gehallucineerde data die plausibel lijkt maar volledig onjuist is.

Het hallucinatieprobleem

Zonder classificatie

Schema: “Planet” — Entiteit: “Titan”

De LLM behandelt Titan als een planeet en verzint gegevens: omlooptijd, atmosfeersamenstelling, aantal manen — allemaal plausibel ogend maar onjuist. Titan is in werkelijkheid een maan van Saturnus.

Met classificatie

Classificatie detecteert: “niet overeenkomend — Titan is een maan, geen planeet”

De verrijkingsmodellen ontvangen deze context, stellen irrelevante velden in op null en vullen alleen eigenschappen in die echt op de entiteit van toepassing zijn.

Hoe het werkt

Classificatie draait als één enkele, snelle LLM-aanroep voordat enrichmentmodellen starten. Het gebruikt een goedkoop, snel model (zoals Claude Haiku of GPT-4o Mini) om de kosten te minimaliseren.

Schematype en entiteitgegevens versturen

Het classificatiemodel ontvangt de schemanaam, de beschrijving en de entiteitsgegevens (ingekort tot 3.000 tekens om de kosten laag te houden).

Ontvang gestructureerde classificatie

Het model retourneert een gestructureerd antwoord met een status (match, mismatch, unknown of ambiguous), een beschrijving van wat de entiteit werkelijk is, een betrouwbaarheidsniveau en een redenering.

Context injecteren in enrichment

Het classificatieresultaat wordt aan elke verrijkingsprompt toegevoegd als een sectie “Pre-flight Classification”. Dit geeft verrijkingsmodellen cruciale context over het entiteitstype.

Vier classificatiestatussen

Match

De entiteit komt overeen met het schematype. De verrijking gaat verder met hoge zekerheid.

Prompteffect

Bevestigt het entiteitstype en biedt aanvullende context aan de verrijkingsmodellen.

Voorbeeld

Schema "Pharmaceutical Company", Entiteit "Sanofi" — bevestigd als farmaceutisch bedrijf.

Komt niet overeen

De entiteit is van een ander type dan het schema verwacht. De classificatie legt uit wat de entiteit werkelijk is.

Prompteffect

Waarschuwt enrichment-models dat de entity niet overeenkomt. Instrueert ze om null te gebruiken voor irrelevante velden.

Voorbeeld

Schema "Planet", Entiteit "Titan" — geïdentificeerd als een maan van Saturnus, niet als een planeet.

Onbekend

De entiteit kan niet met zekerheid worden geïdentificeerd. De LLM heeft niet genoeg informatie om deze te classificeren.

Prompteffect

Instrueert enrichment-modellen om null te gebruiken bij twijfel in plaats van te gokken.

Voorbeeld

Schema "Pharmaceutical Company", Entiteit "XYZ Corp" — onvoldoende informatie om het entiteitstype te bepalen.

Dubbelzinnig

Er bestaan meerdere geldige interpretaties. De classification somt de alternatieven op.

Prompteffect

Somt de mogelijke interpretaties op en vraagt enrichment-modellen om de meest waarschijnlijke te kiezen.

Voorbeeld

Schema "Company", Entiteit "Mercury" — kan de planeet, het element of Mercury Insurance zijn.

Sleuteleigenschappen

Niet-blokkerend

Classificatie is puur adviserend. Als de classificatie-aanroep om welke reden dan ook mislukt (modelfout, time-out, ratelimiet), verloopt de enrichment normaal verder zonder classificatiecontext. Zo voorkomt de optionele classificatiestap nooit dat een enrichment wordt voltooid.

Kostenefficiënt

Classificatie is ontworpen om te draaien op snelle, goedkope modellen. Het stuurt een minimale payload (schemanaam, beschrijving en ingekorte entiteitgegevens) en verwacht een kleine gestructureerde respons. De typische kosten zijn een fractie van de enrichment zelf — ruimschoots de moeite waard voor de verbeterde nauwkeurigheid.

Realtime feedback

De UI toont de voortgang van de classification in realtime via Server-Sent Events. Een classification_started-event wordt geactiveerd wanneer de controle begint, gevolgd door classification_completed met de status, betrouwbaarheid en entity-beschrijving. Het resultaat verschijnt als een banner boven de modelresultaten.

Annuleerbaar

Als je de enrichment annuleert tijdens de classificatiefase, stopt de taak onmiddellijk zonder enrichment-modellen te starten. Er worden geen onnodige tokens verbruikt.

Wanneer classificatie inschakelen

Aanbevolen

Schema's met een nauw entiteitstype (bijv. “Pharmaceutical Company”)
Invoergegevens die gemengde entity-typen kunnen bevatten
Batchverrijking met entiteiten uit uiteenlopende bronnen
Wanneer je dure verrijkingsmodellen gebruikt en verspilling wilt voorkomen

Niet nodig

Generieke schema's die elke entiteit accepteren (bijv. “Organisatie”)
Samengestelde invoergegevens waarbij jij het entiteitstype bepaalt
Snelle iteraties waarbij snelheid belangrijker is dan nauwkeurigheid
Schema's zonder een duidelijke definitie van het entiteitstype

Zo schakel je het in

In de Schema-editor of de zijbalk van Batch-enrichment vind je de vervolgkeuzelijst “Classificatie”. Selecteer een snel, goedkoop model (Claude Haiku, GPT-4o Mini of vergelijkbaar). De classificatie wordt automatisch uitgevoerd voordat de enrichment voor elke entity begint.

Bij gebruik van de REST API voeg je het veld classification_model toe aan je verrijkingsverzoek met de samengestelde sleutel van het model (bijv. anthropic::claude-haiku-4-5).

Verrijkingsflow

Volledige doorloop van de pipeline

Strategieën

Enkele doorloop versus multi-expertise

Multimodelfusie

Resultaten van meerdere modellen samenvoegen

Pre-flightclassificatie

Waarom classificeren vóór verrijken?

Hoe het werkt

Vier classificatiestatussen

Sleuteleigenschappen

Niet-blokkerend

Kostenefficiënt

Realtime feedback

Annuleerbaar

Wanneer classificatie inschakelen

Zo schakel je het in

Gerelateerde documentatie