Pre-flightclassificatie verifieert dat een entiteit overeenkomt met het verwachte schematype voordat de verrijking begint. Deze optionele stap voorkomt hallucinatie en verspilde tokens wanneer entiteiten niet overeenkomen met je schema.
LLM's zijn happig om te helpen. Wanneer je ze vraagt een entiteit tegen een schema te verrijken, produceren ze gestructureerde output, zelfs als de entiteit helemaal niet bij het schematype past. Dit leidt tot gehallucineerde data die plausibel lijkt maar volledig onjuist is.
Schema: “Planet” — Entiteit: “Titan”
De LLM behandelt Titan als een planeet en verzint gegevens: omlooptijd, atmosfeersamenstelling, aantal manen — allemaal plausibel ogend maar onjuist. Titan is in werkelijkheid een maan van Saturnus.
Classificatie detecteert: “niet overeenkomend — Titan is een maan, geen planeet”
De verrijkingsmodellen ontvangen deze context, stellen irrelevante velden in op null en vullen alleen eigenschappen in die echt op de entiteit van toepassing zijn.
Classificatie draait als één enkele, snelle LLM-aanroep voordat enrichmentmodellen starten. Het gebruikt een goedkoop, snel model (zoals Claude Haiku of GPT-4o Mini) om de kosten te minimaliseren.
De entiteit komt overeen met het schematype. De verrijking gaat verder met hoge zekerheid.
De entiteit is van een ander type dan het schema verwacht. De classificatie legt uit wat de entiteit werkelijk is.
De entiteit kan niet met zekerheid worden geïdentificeerd. De LLM heeft niet genoeg informatie om deze te classificeren.
Er bestaan meerdere geldige interpretaties. De classification somt de alternatieven op.
Classificatie is puur adviserend. Als de classificatie-aanroep om welke reden dan ook mislukt (modelfout, time-out, ratelimiet), verloopt de enrichment normaal verder zonder classificatiecontext. Zo voorkomt de optionele classificatiestap nooit dat een enrichment wordt voltooid.
Classificatie is ontworpen om te draaien op snelle, goedkope modellen. Het stuurt een minimale payload (schemanaam, beschrijving en ingekorte entiteitgegevens) en verwacht een kleine gestructureerde respons. De typische kosten zijn een fractie van de enrichment zelf — ruimschoots de moeite waard voor de verbeterde nauwkeurigheid.
De UI toont de voortgang van de classification in realtime via Server-Sent Events. Een classification_started-event wordt geactiveerd wanneer de controle begint, gevolgd door classification_completed met de status, betrouwbaarheid en entity-beschrijving. Het resultaat verschijnt als een banner boven de modelresultaten.
Als je de enrichment annuleert tijdens de classificatiefase, stopt de taak onmiddellijk zonder enrichment-modellen te starten. Er worden geen onnodige tokens verbruikt.
In de Schema-editor of de zijbalk van Batch-enrichment vind je de vervolgkeuzelijst “Classificatie”. Selecteer een snel, goedkoop model (Claude Haiku, GPT-4o Mini of vergelijkbaar). De classificatie wordt automatisch uitgevoerd voordat de enrichment voor elke entity begint.
Bij gebruik van de REST API voeg je het veld classification_model toe aan je verrijkingsverzoek met de samengestelde sleutel van het model (bijv. anthropic::claude-haiku-4-5).