Verrijkingsflow - Entity Enricher-documentatie

Verrijkingsflow

Een stapsgewijze uitleg van hoe Entity Enricher één entiteit verwerkt — van invoer via classificatie en parallelle modeluitvoering tot gestructureerde uitvoer.

De pijplijn in één oogopslag

Invoer

Entity-JSON
+ schema

Classificatie

Optionele
typecontrole

Parallelle modellen

Claude

financieel
regelgeving
algemeen

GPT-4

financieel
regelgeving
algemeen

Valideren

Typecontrole
Zelfcorrectie

Uitvoer

Gestructureerd
JSON per model

Stap 1: Configureer de enrichment

Open de pagina Schema Editor en stel je verrijking in. Een workflowstapper leidt je door de fasen van de pijplijn: Sample Data, Schema, Enrichment en Results.

Schemapaneel (links)

Plak voorbeeld-JSON om automatisch een schema te genereren en verken vervolgens de interactieve eigenschappenboom. Bewerk eigenschappen, voeg expertisedomeinen toe en markeer velden als zoeksleutels of behouden.

Verrijkingspaneel (rechts)

Configureer verrijkingsopties (strategie, modellen, talen, classificatie, plus het response-schema en de schakelaars voor strikte gestructureerde uitvoer) en vul de zoeksleutels van de entiteit in (naam, website, land, enz.) om de entiteit te identificeren.

Resultatenpaneel

Toont realtime voortgang en resultaten voor elk model. Bij gebruik van meerdere modellen verschijnt er een knop “Resultaten samenvoegen” voor fusion.

Stap 2: Pre-flight classification (optioneel)

Als je een classificatiemodel hebt geselecteerd, wordt eerst een snelle, goedkope LLM-aanroep uitgevoerd om te controleren of de entity overeenkomt met het schematype. Dit voorkomt dat er tokens worden verspild aan enrichment wanneer de entity niet overeenkomt. Lees meer in de Classificatiedocumentatie.

Niet-blokkerend: Als classificatie om welke reden dan ook mislukt, gaat de verrijking gewoon door. Classificatie is puur adviserend — het voegt context toe aan de verrijkingsprompts maar blokkeert de pipeline nooit.

Stap 3: Strategie-uitvoering

Elk geselecteerd model verwerkt de entity met de door jou gekozen strategie. Wanneer meerdere modellen zijn geselecteerd, draaien ze parallel over providers heen (Claude en GPT-4 draaien tegelijk), terwijl modellen van dezelfde provider achter elkaar draaien om rate limits te respecteren.

Multi-expertise-voorbeeld (3 domeinen)

Schema splitsen per expertise

Eigenschappen worden gegroepeerd op expertisedomein: financiële velden, regelgevingsvelden, algemene velden.

Voer parallelle LLM-aanroepen uit

Elke expertise krijgt zijn eigen gerichte prompt met alleen de relevante schema-eigenschappen. Ze draaien allemaal tegelijkertijd.

Resultaten geleidelijk samenvoegen

Zodra elke expertise klaar is, wordt de output ervan samengevoegd met het opgebouwde resultaat. Je ziet gedeeltelijke resultaten in realtime.

Behoudlogica toepassen

Oorspronkelijke waarden voor velden die als 'preserve' zijn gemarkeerd, worden hersteld, zodat je invoergegevens intact blijven.

Stap 4: Validatie en zelfcorrectie

Elke LLM-respons wordt in realtime gevalideerd aan de hand van je schema. Wanneer de output niet overeenkomt met de verwachte types of beperkingen, stuurt het systeem de fouten automatisch terug naar de LLM ter correctie.

Wat automatisch wordt gecorrigeerd:

String in plaats van getal

"42.2" wordt 42.2

Geïndexeerde objecten als arrays

{"0": "a", "1": "b"} wordt ["a", "b"]

String-nulls

"null" of "None" wordt echte null

Vereiste velden ontbreken

Fout teruggestuurd, LLM vult ze in

Tot 5 automatische nieuwe pogingen per LLM-aanroep. Elke nieuwe poging bevat de specifieke validatiefout zodat de LLM precies weet wat er hersteld moet worden.

Output afdwingen bij de bron

Twee optionele schakelaars vragen de provider om de uitvoer te beperken voordat deze terugkomt, zodat er om te beginnen minder antwoorden gecorrigeerd hoeven te worden. Beide gelden alleen voor modellen die ze ondersteunen; alles valt nog steeds terug op de validatie-en-herprobeer-lus hierboven.

Responsschema

Stuurt je schema via het native response-schemakanaal van de provider, zodat de JSON aan de serverzijde wordt afgedwongen. Standaard uit — geschikte modellen gebruiken anders het tool-call-kanaal.

Strikte gestructureerde uitvoer

Beperkt de decodering tot het schema (geen drift) op het gebruikte gestructureerde kanaal. Standaard aan; stilzwijgend genegeerd door modellen die dit niet kunnen afdwingen.

Stap 5: Real-time streaming

Entity Enricher gebruikt Server-Sent Events (SSE) om de voortgang in realtime te streamen. Je hoeft niet te wachten tot alle modellen klaar zijn — resultaten verschijnen geleidelijk zodra elk expertisedomein of model klaar is.

Gebeurtenistijdlijn (voorbeeld met 2 modellen, 3 expertises)

0.0sstartedJob start, 2 modellen in de wachtrij

0.1sclassification_startedPre-flightcontrole begint

0.8sclassification_completedEntiteit bevestigd als "match" (95%)

0.9smodel_startedClaude en GPT-4 starten parallel

1.2sexpertise_completedClaude: financieel klaar, gedeeltelijk resultaat gestreamd

1.5sexpertise_completedClaude: algemeen klaar, resultaat bijgewerkt

1.8sexpertise_completedClaude: regelgeving klaar, volledig resultaat gereed

1.9smodel_completedClaude voltooid met volledige gestructureerde uitvoer

2.5smodel_completedGPT-4 voltooid met volledige gestructureerde output

2.5scompletedAlle modellen klaar, stream sluit

Stap 6: Resultaten bekijken

Elk model krijgt zijn eigen resultaatpaneel met de gestructureerde JSON-output, voortgangsbadges per expertise, tokengebruik, kosten en verwerkingstijd. Bij gebruik van de multi-expertise-strategie worden de expertise-badges in realtime bijgewerkt zodra elk domain klaar is.

Wat je per model ziet:

Statusbadge — Wachtend, Actief, Geslaagd, Mislukt of Gedeeltelijk
Expertise-badges — Gekleurde pillen die de voortgang per domein tonen (blauw = bezig, groen = klaar, rood = mislukt)
Progressieve JSON — De output wordt bijgewerkt zodra elke expertise klaar is
Statistieken — Verwerkingstijd, aantal tokens, kosten in USD
Voortgangslogboek — Vermeldingen met tijdstempel voor elke gebeurtenis

Gedeeltelijk succes afhandelen

Bij gebruik van de multi-expertisestrategie kunnen sommige expertises mislukken terwijl andere slagen. In plaats van alles weg te gooien, retourneert Entity Enricher de samengevoegde output van de geslaagde expertises met de status “Gedeeltelijk”. Je kunt dan alleen de mislukte expertises opnieuw proberen zonder de hele verrijking opnieuw uit te voeren.

Voorbeeld: Als 2 van de 3 expertises slagen, krijg je gestructureerde uitvoer die de geslaagde domeinen dekt. De mislukte expertise kan opnieuw worden geprobeerd en de resultaten ervan worden samengevoegd met de bestaande uitvoer.

Wat gebeurt er nu?

Nadat de verrijking is voltooid, worden je resultaten opgeslagen op de Records-pagina voor toekomstig gebruik. Als je meerdere modellen hebt gebruikt, kun je de resultaten samenvoegen met Multi-Model Fusion.

Strategieën

Enkele doorloop versus multi-expertise

Classificatie

Pre-flight-verificatie van entiteitstype

Fusie

Resultaten van meerdere modellen samenvoegen