La classification preliminare verifica che un entity corrisponda al tipo di schema previsto prima dell'inizio dell'enrichment. Questo passaggio facoltativo previene le allucinazioni e lo spreco di token quando gli entity non corrispondono al tuo schema.
Gli LLM sono desiderosi di essere d'aiuto. Quando viene chiesto loro di arricchire un'entità in base a uno schema, producono un output strutturato anche se l'entità non corrisponde affatto al tipo dello schema. Ciò porta a dati allucinati che sembrano plausibili ma sono del tutto errati.
Schema: “Pianeta” — Entità: “Titano”
L'LLM tratta Titano come un pianeta e inventa dati: periodo orbitale, composizione dell'atmosfera, numero di lune — tutti apparentemente plausibili ma errati. Titano è in realtà una luna di Saturno.
La classification rileva: «discrepanza — Titano è una luna, non un pianeta»
I modelli di arricchimento ricevono questo contesto, impostano su null i campi irrilevanti e compilano solo le proprietà che si applicano realmente all'entità.
La classification viene eseguita come un'unica chiamata LLM rapida prima dell'avvio di qualsiasi model di enrichment. Utilizza un model economico e veloce (come Claude Haiku o GPT-4o Mini) per ridurre al minimo i costi.
L'entità corrisponde al tipo dello schema. L'arricchimento procede con elevata affidabilità.
L'entità è di un tipo diverso da quello previsto dallo schema. La classificazione spiega di cosa si tratta effettivamente.
Non è possibile identificare l'entità con certezza. L'LLM non dispone di informazioni sufficienti per classificarla.
Esistono più interpretazioni valide. La classificazione elenca le alternative.
La classification è puramente indicativa. Se la chiamata di classification non riesce per qualsiasi motivo (errore del model, timeout, limite di frequenza), l'enrichment procede normalmente senza il contesto di classification. Ciò garantisce che il passaggio opzionale di classification non impedisca mai il completamento dell'enrichment.
La classification è progettata per essere eseguita su model veloci ed economici. Invia un payload minimo (nome dello schema, descrizione e dati dell'entity troncati) e prevede una piccola risposta strutturata. Il costo tipico è una frazione dell'enrichment stesso — decisamente conveniente rispetto al miglioramento in accuratezza.
L'interfaccia mostra l'avanzamento della classification in tempo reale tramite Server-Sent Events. Un evento classification_started viene attivato quando inizia il controllo, seguito da classification_completed con lo stato, il livello di confidenza e la descrizione dell'entity. Il risultato appare come banner sopra i risultati del model.
Se annulla l'arricchimento durante la fase di classificazione, il processo si interrompe immediatamente senza avviare alcun modello di arricchimento. Non viene consumato alcun token superfluo.
Nell'editor dello schema o nella barra laterale dell'arricchimento in batch, cerchi il menu a discesa “Classificazione”. Selezioni un modello rapido ed economico (Claude Haiku, GPT-4o Mini o simili). La classificazione verrà eseguita automaticamente prima dell'inizio dell'arricchimento per ogni entità.
Quando si utilizza l'API REST, includere il campo classification_model nella richiesta di arricchimento con la chiave composita del modello (ad es. anthropic::claude-haiku-4-5).