AI-schemageneratie - Entity Enricher-documentatie

AI-schemageneratie

Genereer gestructureerde JSON-schema's uit voorbeelddata met AI, inclusief automatische zelfcorrectie en intelligente nabewerking.

Hoe het werkt

Schemageneratie zet ruwe entiteitgegevens om in een getypeerd, geannoteerd JSON-schema dat precies bepaalt welke informatie er tijdens de verrijking wordt geëxtraheerd. In plaats van schema's handmatig te schrijven, plak je voorbeeld-JSON en laat je AI de structuur analyseren, types afleiden, expertisedomeinen toewijzen en verbeteringen voorstellen.

De generatiepijplijn

  1. Invoervoorbewerking — Je voorbeeld-JSON wordt geanalyseerd. Gelokaliseerde objecten (zoals {"en": "...", "fr": "..."}) worden samengevouwen tot één waarde, en het aantal eigenschappen bepaalt hoeveel expertisedomeinen zijn toegestaan.
  2. Promptopbouw — Er wordt een adaptieve systeemprompt opgebouwd op basis van de complexiteit van je data: of deze geneste objecten bevat, hoeveel eigenschappen erin zitten en of er meertalige velden zijn gedetecteerd.
  3. LLM-generatie met zelfcorrectie — De AI genereert het schema. Als een van de 8 validatieregels faalt, worden fouten teruggestuurd naar de AI voor correctie — tot in totaal 6 pogingen.
  4. Nabewerking — Deterministische regels verfijnen het schema: nullable velden markeren, lege zoeksleutels wissen en expertisemetadata verzamelen.
  5. Automatisch opslaan — Het gegenereerde schema wordt automatisch opgeslagen en ontdubbeld via content-hashing, zodat identieke schema's niet worden gedupliceerd.

Zelfcorrectielus

De zelfcorrectielus is wat schemageneratie betrouwbaar maakt. Nadat de AI een schema heeft geproduceerd, gaat het door een validator die 8 regels controleert op typecorrectheid, expertisetoewijzing, referentie-integriteit en datavolledigheid. Als een regel faalt, wordt de specifieke foutmelding teruggestuurd naar de AI zodat deze het probleem in de volgende poging kan oplossen.

Voorbeeld van zelfcorrectie

Poging 1AI genereert schema. Validator detecteert: revenue: type-mismatch — invoer is een getal maar schema zegt 'string'
Opnieuw proberenDe fout wordt teruggestuurd naar de AI met context over wat er misging.
Poging 2De AI corrigeert het type naar number. Alle 8 regels slagen. Het schema wordt geaccepteerd.

Deze aanpak is veel betrouwbaarder dan de AI in de prompt vragen om “voorzichtig te zijn met types”. De validator vangt concrete fouten op en geeft de AI nauwkeurige feedback om ze te herstellen. Lees meer over elke regel in de gids Validatieregels.

Wat het schema bevat

Een gegenereerd schema is meer dan een eenvoudige typedefinitie. Elke eigenschap bevat metadata die het verrijkingsproces stuurt:

Type

JSON Schema-type (string, number, integer, boolean, array, object)

Beschrijving

Contextuele beschrijving die de AI vertelt welke informatie te vinden

Expertise

Welk expertisedomein (financieel, regelgevend, enz.) deze waarde levert

Zoeksleutel

Of dit veld de entiteit identificeert (zoeken) of arrays ontdubbelt (samenvoegen)

Nullable

Of het veld null mag zijn, wat onnodige nieuwe pogingen voor optionele gegevens voorkomt

Meertalig

Of het veld in meerdere talen moet worden verrijkt

Behouden

Of de oorspronkelijke waarde ongewijzigd moet blijven tijdens verrijking

Voorbeelden

Realistische voorbeeldwaarden die de AI naar het juiste formaat leiden

Detectie van expertisedomein

De AI groepeert schema-eigenschappen in expertisedomeinen op basis van hun semantische betekenis. Zo kan een schema voor een farmaceutisch bedrijf domeinen bevatten als “Financieel analist,” “Regelgevingsexpert” en “Bedrijfsinformatie.” Deze domeinen worden gebruikt door de multi-expertisestrategie om parallelle, gespecialiseerde LLM-aanroepen uit te voeren voor diepere resultaten.

Limieten voor aantal domeinen

Het aantal expertisedomeinen wordt automatisch beperkt op basis van het aantal eigenschappen van je gegevens om overfragmentatie te voorkomen:

5 eigenschappen
1 domein
12 eigenschappen
2 domeinen
30 eigenschappen
5 domeinen
60 eigenschappen
10 domeinen

Naverwerking

Nadat de AI een geldig schema heeft gegenereerd, verfijnen drie deterministische nabewerkingsstappen het op basis van je werkelijke invoergegevens:

Nullable-detectie

Velden met null-waarden in je invoer worden automatisch als nullable gemarkeerd, zodat de AI geen pogingen verspilt om ze in te vullen.

Lege zoeksleutel wissen

Zoeksleutelvlaggen worden verwijderd van velden met lege waarden (null, lege tekst, nul), omdat ze de entiteit niet kunnen helpen identificeren.

Expertiseverzameling

Alle unieke expertise domains worden uit het schema verzameld voor metrics en strategieconfiguratie.

AI-schemabewerking

Na de generatie kun je schema's aanpassen met instructies in natuurlijke taal. Typ een opdracht en de AI voert de wijziging door met behoud van je bestaande schemastructuur. Elke bewerking levert ook 5 suggesties voor verdere verbeteringen op.

Voorbeelden van bewerkingscommando's

Voeg een employee_count integer-veld toe
Maak een genest adresobject met stad en land
Voeg Franse beschrijvingen toe aan alle tekstvelden
Definieer een verwijzing naar een moederbedrijf met $defs
Markeer het website-veld als nullable

AI-bewerkingen worden gevalideerd met een subset van de generatieregels (typecontrole, referentie-integriteit, expertiseconsistentie) zonder vergelijking met invoergegevens, omdat je mogelijk opzettelijk velden toevoegt of verwijdert.

AI-suggesties

Zowel schemageneratie als AI-bewerking leveren 5 gerichte suggesties die verschillende verbetercategorieën bestrijken:

Volledigheid van dataOntbrekende velden die je entity kunnen verrijken
DatakwaliteitValidatiepatronen, formaatbeperkingen
RelatiesGeneste structuren, entity-verwijzingen via $defs
InternationalisatieMeertalige vertalingen, ondersteuning voor landinstellingen
BedrijfscontextDomeinspecifieke velden en expertisegroeperingen

Suggesties verschijnen als klikbare chips in de Schema-editor — klik erop om de AI-bewerkingsinvoer automatisch in te vullen en toe te passen.

Volgende stappen