Classification preliminare - Documentazione di Entity Enricher

Classification preliminare

La classification preliminare verifica che un entity corrisponda al tipo di schema previsto prima dell'inizio dell'enrichment. Questo passaggio facoltativo previene le allucinazioni e lo spreco di token quando gli entity non corrispondono al tuo schema.

Perché classificare prima di arricchire?

Gli LLM sono desiderosi di essere d'aiuto. Quando viene chiesto loro di arricchire un'entità in base a uno schema, producono un output strutturato anche se l'entità non corrisponde affatto al tipo dello schema. Ciò porta a dati allucinati che sembrano plausibili ma sono del tutto errati.

Il problema delle allucinazioni
Senza classificazione

Schema: “Pianeta” — Entità: “Titano”

L'LLM tratta Titano come un pianeta e inventa dati: periodo orbitale, composizione dell'atmosfera, numero di lune — tutti apparentemente plausibili ma errati. Titano è in realtà una luna di Saturno.

Con classificazione

La classification rileva: «discrepanza — Titano è una luna, non un pianeta»

I modelli di arricchimento ricevono questo contesto, impostano su null i campi irrilevanti e compilano solo le proprietà che si applicano realmente all'entità.

Come funziona

La classification viene eseguita come un'unica chiamata LLM rapida prima dell'avvio di qualsiasi model di enrichment. Utilizza un model economico e veloce (come Claude Haiku o GPT-4o Mini) per ridurre al minimo i costi.

1
Invia il tipo di schema e i dati dell'entità
Il modello di classificazione riceve il nome dello schema, la descrizione e i dati dell'entità (troncati a 3.000 caratteri per contenere i costi).
2
Ricevi una classificazione strutturata
Il modello restituisce una risposta strutturata con uno stato (corrispondenza, mancata corrispondenza, sconosciuto o ambiguo), una descrizione di cosa sia effettivamente l'entità, il livello di confidenza e il ragionamento.
3
Inserisci contesto nell'arricchimento
Il risultato della classificazione viene anteposto a ogni prompt di arricchimento come sezione “Pre-flight Classification”. Questo fornisce ai modelli di arricchimento un contesto fondamentale sul tipo di entità.

Quattro stati di classification

Corrispondenza

L'entità corrisponde al tipo dello schema. L'arricchimento procede con elevata affidabilità.

Effetto del prompt
Conferma il tipo di entity e fornisce contesto aggiuntivo ai model di enrichment.
Esempio
Schema "Pharmaceutical Company", entità "Sanofi": confermata come azienda farmaceutica.
Discordanza

L'entità è di un tipo diverso da quello previsto dallo schema. La classificazione spiega di cosa si tratta effettivamente.

Effetto del prompt
Avvisa i modelli di enrichment che l'entità non corrisponde. Li istruisce a usare null per i campi non pertinenti.
Esempio
Schema "Planet", entità "Titan": identificata come una luna di Saturno, non un pianeta.
Sconosciuto

Non è possibile identificare l'entità con certezza. L'LLM non dispone di informazioni sufficienti per classificarla.

Effetto del prompt
Indica ai model di enrichment di usare null in caso di incertezza anziché tirare a indovinare.
Esempio
Schema "Pharmaceutical Company", entità "XYZ Corp": informazioni insufficienti per determinare il tipo di entità.
Ambigua

Esistono più interpretazioni valide. La classificazione elenca le alternative.

Effetto del prompt
Elenca le possibili interpretazioni e chiede ai modelli di arricchimento di scegliere quella più probabile.
Esempio
Schema "Company", entità "Mercury": potrebbe essere il pianeta, l'elemento o Mercury Insurance.

Proprietà chiave

Non bloccante

La classification è puramente indicativa. Se la chiamata di classification non riesce per qualsiasi motivo (errore del model, timeout, limite di frequenza), l'enrichment procede normalmente senza il contesto di classification. Ciò garantisce che il passaggio opzionale di classification non impedisca mai il completamento dell'enrichment.

Conveniente

La classification è progettata per essere eseguita su model veloci ed economici. Invia un payload minimo (nome dello schema, descrizione e dati dell'entity troncati) e prevede una piccola risposta strutturata. Il costo tipico è una frazione dell'enrichment stesso — decisamente conveniente rispetto al miglioramento in accuratezza.

Feedback in tempo reale

L'interfaccia mostra l'avanzamento della classification in tempo reale tramite Server-Sent Events. Un evento classification_started viene attivato quando inizia il controllo, seguito da classification_completed con lo stato, il livello di confidenza e la descrizione dell'entity. Il risultato appare come banner sopra i risultati del model.

Annullabile

Se annulla l'arricchimento durante la fase di classificazione, il processo si interrompe immediatamente senza avviare alcun modello di arricchimento. Non viene consumato alcun token superfluo.

Quando abilitare la classificazione

Consigliato
  • Schemi con un tipo di entità ristretto (es. “Azienda farmaceutica”)
  • Dati di input che potrebbero contenere tipi di entità misti
  • Arricchimento in batch con entità da fonti diverse
  • Quando si utilizzano modelli di arricchimento costosi e si desidera evitare sprechi
Non necessario
  • Schemi generici che accettano qualsiasi entità (ad es. “Organizzazione”)
  • Dati di input selezionati in cui controlli il tipo di entità
  • Iterazioni rapide dove la velocità conta più della precisione
  • Schemi senza una chiara definizione del tipo di entità

Come abilitare

Nell'editor dello schema o nella barra laterale dell'arricchimento in batch, cerchi il menu a discesa “Classificazione”. Selezioni un modello rapido ed economico (Claude Haiku, GPT-4o Mini o simili). La classificazione verrà eseguita automaticamente prima dell'inizio dell'arricchimento per ogni entità.

Quando si utilizza l'API REST, includere il campo classification_model nella richiesta di arricchimento con la chiave composita del modello (ad es. anthropic::claude-haiku-4-5).