Entity Enricher trasforma due tipi di conoscenza in dati strutturati e validati: ciò che i Large Language Model già conoscono e ciò che giace non letto nei vostri archivi — documenti PDF, immagini, registrazioni audio, file per ufficio. Ogni oggetto estratto riceve un'identità semantica stabile, così gli arricchimenti si accumulano in un sistema informativo coerente anziché in un cumulo di risultati isolati.
Considerate gli LLM come conoscenza umana distillata — miliardi di documenti, database e pagine web compressi in reti neurali interrogabili. Entity Enricher fornisce l'interfaccia per estrarre questa conoscenza in un formato strutturato e affidabile che si adatta al vostro modello di dati. E poiché i model moderni sono anche in grado di leggere PDF, vedere immagini e ascoltare audio, la stessa interfaccia estrae la struttura dai vostri contenuti: i contratti, i report, le scansioni e le registrazioni che la vostra azienda ha accumulato negli anni.
Ogni enrichment attinge a una di queste fonti o a entrambe. Si completano a vicenda: il modello fornisce conoscenza del mondo e ragionamento; i documenti forniscono i fatti che esistono solo all'interno della vostra organizzazione.
Fatti pubblici su aziende, farmaci, luoghi, prodotti, normative: tutto ciò che il modello ha appreso durante l'addestramento. Fornite un identificatore (un nome, un sito web) e uno schema e completa il resto: settore, anno di fondazione, sede centrale, meccanismi d'azione. Nessun documento richiesto.
La conoscenza che non è mai finita in un database: contratti, fatture, rapporti di ispezione, moduli scansionati, foto di prodotti, chiamate registrate. Li alleghi a un arricchimento e il modello estrae direttamente i campi del suo schema dal loro contenuto — senza OCR, trascrizione o copia-incolla manuali.
Consultate Allegati dei documenti per i formati supportati e le modalità di consegna.
Uno schema non è solo una struttura di dati — è una domanda formalizzata che si rivolge alla conoscenza collettiva dell'umanità o a un documento specifico. Quando si definisce uno schema con proprietà come companyName, industry e headquarters, si sta essenzialmente chiedendo: «Dato un identificatore di azienda, indicami il suo nome, in quale settore opera e dove ha la sede.»
| Concetto di schema | Scopo |
|---|---|
| Proprietà | I dati specifici che si desidera estrarre |
| Tipi | Il formato previsto (stringa, numero, oggetto, array) |
| Domini di competenza | Quale specialista dovrebbe rispondere (farmaceutico, finanziario, geografico) |
| Chiavi di ricerca | Identificatori che aiutano a localizzare l'entità nella knowledge base |
| ID semantico | Un'identità stabile e circoscritta all'organizzazione, in modo che lo stesso oggetto del mondo reale venga riconosciuto tra i diversi arricchimenti e i vostri altri sistemi |
| Mantieni | Campi da trasferire invariati dall'input |
| Multilingua | Campi forniti in ogni lingua in cui opera — una funzionalità di prima classe, non un passaggio di traduzione aggiunto in un secondo momento |
I Large Language Model rappresentano un nuovo tipo di base di conoscenza. A differenza dei database tradizionali, che restituiscono corrispondenze esatte sui record memorizzati, gli LLM comprendono il contesto, ragionano su dati incompleti e generalizzano a partire dai pattern. E non sono più limitati al testo: i modelli con capacità visive leggono immagini e pagine scansionate, i modelli in grado di elaborare PDF acquisiscono interi documenti e i modelli con capacità audio ascoltano le registrazioni.
Entity Enricher tratta più LLM come diverse prospettive di conoscenza. Ogni provider apporta i propri punti di forza — Claude eccelle nel ragionamento sfumato, GPT-4 vanta una conoscenza ampia, Gemini offre profondità multilingue e i modelli locali Ollama mantengono privati i vostri dati.
Eseguire lo stesso arricchimento su più provider consente di confrontare le risposte per valutarne l'affidabilità, aggregare il consenso di più esperti e bilanciare costo e qualità. Scopri di più in Multi-Model Enrichment.
L'arricchimento è il processo di identificazione dell'entità tramite chiavi di ricerca, recupero delle conoscenze pertinenti dall'LLM e da eventuali documenti allegati, strutturazione della risposta in base al suo schema, validazione della corrispondenza dell'output ai tipi attesi, conservazione dei dati originali dove specificato e, infine, risoluzione dell'identità — assegnando a ciascun oggetto il suo ID semantico stabile.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }Ogni enrichment è indipendente. Chiedete due volte e la stessa entità reale può essere restituita con descrizioni diverse — «Acme Inc.» un giorno, «Acme Incorporated» il giorno dopo; un effetto collaterale di un farmaco come «Headache», «Céphalée» o «Cephalalgia» a seconda della lingua o del modello. Per poter davvero costruire sui dati arricchiti, serve un riferimento stabile per la stessa entità.
Un ID semantico è un identificatore con ambito all'organizzazione che Entity Enricher assegna a un oggetto a partire dai suoi campi chiave, abbinato per significato, non per ortografia esatta. La stessa entità si risolve nello stesso ID attraverso arricchimenti, modelli, lingue e nel tempo. Viene assegnato automaticamente dopo l'esecuzione del modello — mai inventato dall'LLM — e può risiedere su qualsiasi oggetto: l'intera entità, un oggetto annidato o ciascun elemento di un elenco.
cpt_abc123È questo che trasforma un flusso di enrichment in un sistema informativo che potete far crescere e interrogare:
| Usa | Che cosa consente |
|---|---|
| Chiave di join | Una chiave stabile per abbinare i record arricchiti al vostro data warehouse, CRM o sistema di master data |
| Deduplicazione | Comprimi in un'unica identità i quasi-duplicati prodotti tra batch, modelli o anni di documenti |
| Riconciliazione | Inserisci nuovamente un ID semantico noto e i nuovi dati verranno collegati all'entità che stai già monitorando, invece di crearne una nuova |
| Knowledge graph | Gli oggetti referenziati da più record convergono in un unico nodo — le relazioni diventano interrogabili |
Il funzionamento della risoluzione (cache a corrispondenza esatta, embedding, soglie di similarità) è trattato in ID semantici.
La maggior parte delle aziende dispone di un archivio mai strutturato: drive condivisi di contratti e report, documenti cartacei scansionati, allegati email, riunioni registrate. Quell'archivio è un database — semplicemente non gli sono mai state assegnate righe e colonne. Combinando allegati (documenti come fonte di conoscenza), arricchimento in batch (elaborazione parallela) e ID semantici (deduplicazione sull'intero corpus) lo si trasforma in uno.
Consultate Enrichment in batch per il flusso di lavoro nel dettaglio.
La conoscenza strutturata non risiede solo nel testo. Entity Enricher accetta i formati effettivamente presenti nel vostro archivio e indirizza ciascuno verso modelli in grado di leggerlo.
Due modalità di consegna rendono tutto questo possibile. Nella modalità binaria, i byte originali vengono inviati al modello, così nulla va perso nella conversione — il layout di una tabella, il dettaglio di una foto, le parole di un interlocutore. Nella modalità testo inline, il testo viene estratto una volta durante il caricamento e inserito in ogni prompt, il che funziona con qualsiasi modello indipendentemente dalle sue capacità.
L'instradamento consapevole delle funzionalità fa sì che un file raggiunga soltanto i modelli in grado di elaborarlo effettivamente: si viene avvisati prima che un arricchimento inizi, non dopo che è fallito. Formati e modalità sono descritti in dettaglio in Allegati dei documenti.
Non tutte le conoscenze sono uguali. Una domanda sui meccanismi dei farmaci richiede competenze diverse rispetto a una domanda sulla struttura aziendale. Gli expertise domain instradano le proprietà dello schema allo specialista corretto all'interno dell'LLM, attivando i pattern di conoscenza pertinenti per ciascun dominio.
Quando si utilizza la strategia multi-competenza, ogni dominio riceve la propria chiamata LLM mirata con le sole proprietà pertinenti dello schema, migliorando notevolmente la qualità dell'output.
Gli LLM possono commettere errori. Entity Enricher implementa più livelli di controllo qualità per individuare e correggere gli errori automaticamente:
Le chiavi di ricerca impediscono all'LLM di generare allucinazioni sull'entità sbagliata. Svolgono due ruoli:
Il prompt di arricchimento sottolinea: “Stai arricchendo questa specifica entità identificata da queste chiavi di ricerca.”
Le chiavi di ricerca e i semantic ID sono due facce dell'identità: le chiavi di ricerca aiutano l'LLM a trovare l'entità corretta durante l'enrichment; i semantic ID le conferiscono un'identità persistente su cui i vostri sistemi fanno affidamento dopo l'enrichment.
Prima dell'inizio dell'arricchimento, un passaggio opzionale di classificazione preliminare può verificare che l'entità corrisponda effettivamente al tipo dello schema. Questo previene le allucinazioni quando le entità non corrispondono — ad esempio, l'arricchimento di “Titano” rispetto a uno schema “Pianeta” quando Titano è in realtà una luna.
Le chiamate LLM hanno un costo. Entity Enricher tiene traccia dell'utilizzo dei token, del costo per provider, del costo per arricchimento e della spesa a livello di organizzazione. Questo consente il monitoraggio del budget, il confronto tra provider (costo/qualità) e decisioni di ottimizzazione, come l'uso di modelli più economici per i campi semplici — un aspetto particolarmente importante quando si elabora un archivio di migliaia di documenti.
| Componente | Ruolo concettuale |
|---|---|
| Schema | La domanda che si sta ponendo |
| Provider LLM | Prospettive di conoscenza differenti |
| Allegati | I suoi archivi come fonte di conoscenza (PDF, immagini, audio, office) |
| Chiavi di ricerca | Ancore di identità dell'entità durante l'enrichment |
| ID semantici | Identità stabile dopo l'arricchimento: la spina dorsale del tuo sistema informativo |
| Domini di competenza | Instradamento a specialisti |
| Strategie | Come orchestrare le chiamate agli LLM |
| Elaborazione batch | Arricchimento parallelo su scala d'archivio |
| Multilingua | Lo stesso dato in ogni lingua in cui opera |
| Convalida | Garanzia di qualità |
| Mantieni | Protezione dell'integrità dei dati |