Generazione di schema con AI - Documentazione di Entity Enricher

Generazione di schema con AI

Genera schemi JSON strutturati dai dati di esempio con l'IA, con autocorrezione automatica e post-elaborazione intelligente.

Come funziona

La generazione dello schema trasforma i dati grezzi di un'entità in uno schema JSON tipizzato e annotato che definisce esattamente quali informazioni estrarre durante l'arricchimento. Invece di scrivere manualmente gli schemi, incollate un JSON di esempio e lasciate che l'AI ne analizzi la struttura, deduca i tipi, assegni i domini di competenza e suggerisca miglioramenti.

La pipeline di generazione

  1. Preelaborazione dell'input — Il suo JSON di esempio viene analizzato. Gli oggetti localizzati (come {"en": "...", "fr": "..."}) vengono ridotti a un singolo valore e il numero di proprietà determina quanti domini di competenza sono consentiti.
  2. Costruzione del prompt — Un system prompt adattivo viene costruito in base alla complessità dei dati: se contengono oggetti annidati, quante proprietà includono e se sono stati rilevati campi multilingue.
  3. Generazione tramite LLM con autocorrezione — L'IA genera lo schema. Se una delle 8 regole di validazione fallisce, gli errori vengono rinviati all'IA per la correzione — fino a un massimo di 6 tentativi.
  4. Post-elaborazione — Regole deterministiche affinano lo schema: contrassegnano i campi nullable, cancellano le search key vuote e raccolgono i metadati di expertise domain.
  5. Salvataggio automatico — Lo schema generato viene salvato automaticamente e deduplicato tramite hashing del contenuto, così gli schemi identici non vengono duplicati.

Ciclo di autocorrezione

Il ciclo di autocorrezione è ciò che rende affidabile la generazione di schemi. Dopo che l'IA ha prodotto uno schema, questo passa attraverso un validatore che verifica 8 regole riguardanti la correttezza dei tipi, l'assegnazione delle competenze, l'integrità dei riferimenti e la completezza dei dati. Se una regola fallisce, il messaggio di errore specifico viene rinviato all'IA affinché possa risolvere il problema nel tentativo successivo.

Esempio di autocorrezione

Tentativo 1L'AI genera lo schema. Il validatore rileva: revenue: tipo non corrispondente — l'input è un numero ma lo schema indica 'string'
RiprovaL'errore viene restituito all'AI con il contesto di ciò che è andato storto.
Tentativo 2L'AI corregge il tipo in number. Tutte le 8 regole vengono superate. Lo schema viene accettato.

Questo approccio è molto più affidabile che chiedere all'IA di “fare attenzione ai tipi” nel prompt. Il validatore rileva errori concreti e fornisce all'IA un feedback preciso per correggerli. Scoprite di più su ciascuna regola nella guida Regole di validazione.

Che cosa contiene lo schema

Uno schema generato è più di una semplice definizione di tipo. Ogni proprietà include metadati che guidano il processo di arricchimento:

Tipo

Tipo JSON Schema (string, number, integer, boolean, array, object)

Descrizione

Descrizione contestuale che indica all'AI quali informazioni trovare

Competenza

Quale dominio di competenza (finanziario, normativo, ecc.) fornisce questo valore

Chiave di ricerca

Se questo campo identifica l'entità (search) o deduplica gli array (merge)

Nullable

Se il campo può essere null, evitando nuovi tentativi non necessari per i dati facoltativi

Multilingua

Se il campo debba essere arricchito in più lingue

Mantieni

Se mantenere invariato il valore originale durante l'arricchimento

Esempi

Valori di esempio realistici che guidano l'IA verso il formato corretto

Rilevamento del dominio di competenza

L'IA raggruppa le proprietà dello schema in domini di competenza in base al loro significato semantico. Ad esempio, lo schema di un'azienda farmaceutica potrebbe avere domini come “Analista finanziario”, “Esperto normativo” e “Informazioni aziendali”. Questi domini vengono utilizzati dalla strategia multi-competenza per eseguire chiamate LLM parallele e specializzate, ottenendo risultati più approfonditi.

Limiti al numero di domini

Il numero di domini di competenza è limitato automaticamente in base al numero di proprietà dei suoi dati per evitare un'eccessiva frammentazione:

5 proprietà
1 dominio
12 proprietà
2 domini
30 proprietà
5 domini
60 proprietà
10 domini

Post-elaborazione

Dopo che l'AI ha generato uno schema valido, tre fasi deterministiche di post-elaborazione lo affinano in base ai dati di input forniti:

Rilevamento nullable

I campi con valori null nell'input vengono contrassegnati automaticamente come nullable, così l'IA non sprecherà tentativi cercando di compilarli.

Pulizia con chiave di ricerca vuota

I contrassegni di chiave di ricerca vengono rimossi dai campi con valori vuoti (null, stringa vuota, zero) poiché non possono contribuire a identificare l'entità.

Raccolta delle competenze

Tutti i domini di competenza univoci vengono raccolti dallo schema per le metriche e la configurazione della strategia.

Modifica dello schema con AI

Dopo la generazione, è possibile modificare gli schemi utilizzando istruzioni in linguaggio naturale. Digitando un comando, l'AI applica la modifica preservando la struttura dello schema esistente. Ogni modifica produce inoltre 5 suggerimenti per ulteriori miglioramenti.

Comandi di modifica di esempio

Aggiungi un campo intero employee_count
Crea un oggetto indirizzo nidificato con città e paese
Aggiungi descrizioni in francese a tutti i campi di testo
Definire un riferimento alla società madre utilizzando $defs
Contrassegna il campo del sito web come nullable

Le modifiche dell'AI vengono validate utilizzando un sottoinsieme delle regole di generazione (controllo dei tipi, integrità dei riferimenti, coerenza dei domini di competenza) senza confronto con i dati di input, poiché è possibile aggiungere o rimuovere campi intenzionalmente.

Suggerimenti AI

Sia la generazione dello schema sia la modifica con IA producono 5 suggerimenti mirati che coprono diverse categorie di miglioramento:

Completezza dei datiCampi mancanti che potrebbero arricchire la tua entità
Qualità dei datiPattern di convalida, vincoli di formato
RelazioniStrutture nidificate, riferimenti a entità tramite $defs
InternazionalizzazioneTraduzioni multilingua, supporto delle impostazioni locali
Contesto aziendaleCampi specifici del dominio e raggruppamenti per area di competenza

I suggerimenti appaiono come chip cliccabili nell'Editor dello schema: fai clic su uno per compilare automaticamente il campo di modifica AI e applicarlo.

Passaggi successivi