Concetti fondamentali - Documentazione di Entity Enricher

Concetti fondamentali

Entity Enricher trasforma due tipi di conoscenza in dati strutturati e validati: ciò che i Large Language Model già conoscono e ciò che giace non letto nei vostri archivi — documenti PDF, immagini, registrazioni audio, file per ufficio. Ogni oggetto estratto riceve un'identità semantica stabile, così gli arricchimenti si accumulano in un sistema informativo coerente anziché in un cumulo di risultati isolati.

L'idea di fondo

Considerate gli LLM come conoscenza umana distillata — miliardi di documenti, database e pagine web compressi in reti neurali interrogabili. Entity Enricher fornisce l'interfaccia per estrarre questa conoscenza in un formato strutturato e affidabile che si adatta al vostro modello di dati. E poiché i model moderni sono anche in grado di leggere PDF, vedere immagini e ascoltare audio, la stessa interfaccia estrae la struttura dai vostri contenuti: i contratti, i report, le scansioni e le registrazioni che la vostra azienda ha accumulato negli anni.

I suoi dati e archivi

Record parziali

Identificatori grezzi

PDF e scansioni

Immagini e audio

Schema + LLM

“Cosa voglio sapere?”

Il suo sistema informativo

Profili strutturati

Classification

Campi multilingua

ID semantici stabili

Due fonti di conoscenza

Ogni enrichment attinge a una di queste fonti o a entrambe. Si completano a vicenda: il modello fornisce conoscenza del mondo e ragionamento; i documenti forniscono i fatti che esistono solo all'interno della vostra organizzazione.

1. Le conoscenze di addestramento del modello

Fatti pubblici su aziende, farmaci, luoghi, prodotti, normative: tutto ciò che il modello ha appreso durante l'addestramento. Fornite un identificatore (un nome, un sito web) e uno schema e completa il resto: settore, anno di fondazione, sede centrale, meccanismi d'azione. Nessun documento richiesto.

2. I vostri archivi non strutturati

La conoscenza che non è mai finita in un database: contratti, fatture, rapporti di ispezione, moduli scansionati, foto di prodotti, chiamate registrate. Li alleghi a un arricchimento e il modello estrae direttamente i campi del suo schema dal loro contenuto — senza OCR, trascrizione o copia-incolla manuali.

Consultate Allegati dei documenti per i formati supportati e le modalità di consegna.

Tre pilastri

1. Lo schema: la tua domanda alla base di conoscenza

Uno schema non è solo una struttura di dati — è una domanda formalizzata che si rivolge alla conoscenza collettiva dell'umanità o a un documento specifico. Quando si definisce uno schema con proprietà come companyName, industry e headquarters, si sta essenzialmente chiedendo: «Dato un identificatore di azienda, indicami il suo nome, in quale settore opera e dove ha la sede.»

Concetto di schema	Scopo
Proprietà	I dati specifici che si desidera estrarre
Tipi	Il formato previsto (stringa, numero, oggetto, array)
Domini di competenza	Quale specialista dovrebbe rispondere (farmaceutico, finanziario, geografico)
Chiavi di ricerca	Identificatori che aiutano a localizzare l'entità nella knowledge base
ID semantico	Un'identità stabile e circoscritta all'organizzazione, in modo che lo stesso oggetto del mondo reale venga riconosciuto tra i diversi arricchimenti e i vostri altri sistemi
Mantieni	Campi da trasferire invariati dall'input
Multilingua	Campi forniti in ogni lingua in cui opera — una funzionalità di prima classe, non un passaggio di traduzione aggiunto in un secondo momento

2. Il LLM: conoscenza interrogabile, lettore multimodale

I Large Language Model rappresentano un nuovo tipo di base di conoscenza. A differenza dei database tradizionali, che restituiscono corrispondenze esatte sui record memorizzati, gli LLM comprendono il contesto, ragionano su dati incompleti e generalizzano a partire dai pattern. E non sono più limitati al testo: i modelli con capacità visive leggono immagini e pagine scansionate, i modelli in grado di elaborare PDF acquisiscono interi documenti e i modelli con capacità audio ascoltano le registrazioni.

Entity Enricher tratta più LLM come diverse prospettive di conoscenza. Ogni provider apporta i propri punti di forza — Claude eccelle nel ragionamento sfumato, GPT-4 vanta una conoscenza ampia, Gemini offre profondità multilingue e i modelli locali Ollama mantengono privati i vostri dati.

Eseguire lo stesso arricchimento su più provider consente di confrontare le risposte per valutarne l'affidabilità, aggregare il consenso di più esperti e bilanciare costo e qualità. Scopri di più in Multi-Model Enrichment.

3. L'enrichment: estrazione di conoscenza strutturata

L'arricchimento è il processo di identificazione dell'entità tramite chiavi di ricerca, recupero delle conoscenze pertinenti dall'LLM e da eventuali documenti allegati, strutturazione della risposta in base al suo schema, validazione della corrispondenza dell'output ai tipi attesi, conservazione dei dati originali dove specificato e, infine, risoluzione dell'identità — assegnando a ciascun oggetto il suo ID semantico stabile.

Input

{ "name": "Novartis", "website": "novartis.com" }

Estrai le chiavi → Interroga l'LLM → Convalida → Risolvi l'identità

Output

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Dagli enrichment a un sistema informativo

Ogni enrichment è indipendente. Chiedete due volte e la stessa entità reale può essere restituita con descrizioni diverse — «Acme Inc.» un giorno, «Acme Incorporated» il giorno dopo; un effetto collaterale di un farmaco come «Headache», «Céphalée» o «Cephalalgia» a seconda della lingua o del modello. Per poter davvero costruire sui dati arricchiti, serve un riferimento stabile per la stessa entità.

Un ID semantico è un identificatore con ambito all'organizzazione che Entity Enricher assegna a un oggetto a partire dai suoi campi chiave, abbinato per significato, non per ortografia esatta. La stessa entità si risolve nello stesso ID attraverso arricchimenti, modelli, lingue e nel tempo. Viene assegnato automaticamente dopo l'esecuzione del modello — mai inventato dall'LLM — e può risiedere su qualsiasi oggetto: l'intera entità, un oggetto annidato o ciascun elemento di un elenco.

Esecuzione di arricchimento #1

“Acme Inc.”

stesso semantic ID

cpt_abc123

Esecuzione n. 2 — più tardi, modello o lingua diversi

“Acme Incorporated”

È questo che trasforma un flusso di enrichment in un sistema informativo che potete far crescere e interrogare:

Usa	Che cosa consente
Chiave di join	Una chiave stabile per abbinare i record arricchiti al vostro data warehouse, CRM o sistema di master data
Deduplicazione	Comprimi in un'unica identità i quasi-duplicati prodotti tra batch, modelli o anni di documenti
Riconciliazione	Inserisci nuovamente un ID semantico noto e i nuovi dati verranno collegati all'entità che stai già monitorando, invece di crearne una nuova
Knowledge graph	Gli oggetti referenziati da più record convergono in un unico nodo — le relazioni diventano interrogabili

Il funzionamento della risoluzione (cache a corrispondenza esatta, embedding, soglie di similarità) è trattato in ID semantici.

Estrazione da decenni di archivi

La maggior parte delle aziende dispone di un archivio mai strutturato: drive condivisi di contratti e report, documenti cartacei scansionati, allegati email, riunioni registrate. Quell'archivio è un database — semplicemente non gli sono mai state assegnate righe e colonne. Combinando allegati (documenti come fonte di conoscenza), arricchimento in batch (elaborazione parallela) e ID semantici (deduplicazione sull'intero corpus) lo si trasforma in uno.

File di archivio

Allega all'arricchimento

Schema come domanda di estrazione

Record strutturati convalidati

Identità semantica e deduplicazione

Il suo database

Batch su larga scala — le entità vengono arricchite in parallelo con avanzamento in tempo reale per singola entità, stime dei costi anticipate e riprova selettiva per le poche che falliscono
Estrazione protetta — la classificazione preliminare e la validazione dello schema impediscono a un documento archiviato in modo errato di contaminare i suoi record con assurdità presentate con sicurezza
Identità convergente — lo stesso fornitore che compare in un contratto del 2009 e in una fattura del 2024 viene risolto nello stesso ID semantico, così l'archivio si condensa in dati anagrafici puliti
In uscita tramite l'API — i risultati vengono esportati come JSON validato o confluiscono direttamente nei propri sistemi tramite l'API REST e i connettori (n8n, Make, MCP)

Consultate Enrichment in batch per il flusso di lavoro nel dettaglio.

Oltre il testo: fonti multimodali

La conoscenza strutturata non risiede solo nel testo. Entity Enricher accetta i formati effettivamente presenti nel vostro archivio e indirizza ciascuno verso modelli in grado di leggerlo.

Documenti PDF

Documenti interi con layout, tabelle e figure — letti nativamente dai modelli in grado di gestire i PDF

Immagini

Foto, scansioni, diagrammi, immagini di prodotti — interpretati da modelli di visione, senza un passaggio OCR separato

Audio

Chiamate, riunioni e note vocali registrate — ascoltate direttamente da modelli con capacità audio

Office e testo

Word, Excel, PowerPoint, HTML, CSV, Markdown — testo estratto lato server e inserito inline

Due modalità di consegna rendono tutto questo possibile. Nella modalità binaria, i byte originali vengono inviati al modello, così nulla va perso nella conversione — il layout di una tabella, il dettaglio di una foto, le parole di un interlocutore. Nella modalità testo inline, il testo viene estratto una volta durante il caricamento e inserito in ogni prompt, il che funziona con qualsiasi modello indipendentemente dalle sue capacità.

L'instradamento consapevole delle funzionalità fa sì che un file raggiunga soltanto i modelli in grado di elaborarlo effettivamente: si viene avvisati prima che un arricchimento inizi, non dopo che è fallito. Formati e modalità sono descritti in dettaglio in Allegati dei documenti.

Domini di competenza: consultare lo specialista giusto

Non tutte le conoscenze sono uguali. Una domanda sui meccanismi dei farmaci richiede competenze diverse rispetto a una domanda sulla struttura aziendale. Gli expertise domain instradano le proprietà dello schema allo specialista corretto all'interno dell'LLM, attivando i pattern di conoscenza pertinenti per ciascun dominio.

pharmaceutical

Nomi dei farmaci, meccanismi, indicazioni, stato normativo

business_classification

Codici settore, tipi di azienda, segmenti di mercato

geographic

Località, regioni, informazioni specifiche per Paese

financial

Fatturato, capitalizzazione di mercato, round di finanziamento

temporal

Date, periodi, eventi storici

regulatory

Approvazioni, licenze, stato di conformità

Quando si utilizza la strategia multi-competenza, ogni dominio riceve la propria chiamata LLM mirata con le sole proprietà pertinenti dello schema, migliorando notevolmente la qualità dell'output.

Controlli di qualità

Convalida e autocorrezione

Gli LLM possono commettere errori. Entity Enricher implementa più livelli di controllo qualità per individuare e correggere gli errori automaticamente:

Validazione dei tipi — Garantisce che l'output corrisponda ai tipi dello schema (stringa, numero, booleano, ecc.)
Validazione delle competenze — Verifica che tutti i domini di competenza siano definiti e contengano proprietà
Auto-correzione — In caso di fallimento della validazione, gli errori vengono rinviati all'LLM per la correzione automatica (fino a 5 ritentativi)
Logica di conservazione — I valori originali dei campi conservati vengono ripristinati dopo l'enrichment, garantendo l'integrità dei dati

Chiavi di ricerca: ancorare l'identità durante l'enrichment

Le chiavi di ricerca impediscono all'LLM di generare allucinazioni sull'entità sbagliata. Svolgono due ruoli:

Search key (nome, sito web) — Identificatori di ricerca che aiutano l'LLM a trovare l'entity corretta
Chiavi di unione (product_name negli array) — Chiavi di deduplicazione per abbinare gli elementi degli array durante l'unione dei risultati di più modelli

Il prompt di arricchimento sottolinea: “Stai arricchendo questa specifica entità identificata da queste chiavi di ricerca.”

Le chiavi di ricerca e i semantic ID sono due facce dell'identità: le chiavi di ricerca aiutano l'LLM a trovare l'entità corretta durante l'enrichment; i semantic ID le conferiscono un'identità persistente su cui i vostri sistemi fanno affidamento dopo l'enrichment.

Classification preliminare

Prima dell'inizio dell'arricchimento, un passaggio opzionale di classificazione preliminare può verificare che l'entità corrisponda effettivamente al tipo dello schema. Questo previene le allucinazioni quando le entità non corrispondono — ad esempio, l'arricchimento di “Titano” rispetto a uno schema “Pianeta” quando Titano è in realtà una luna.

Consapevolezza dei costi

Le chiamate LLM hanno un costo. Entity Enricher tiene traccia dell'utilizzo dei token, del costo per provider, del costo per arricchimento e della spesa a livello di organizzazione. Questo consente il monitoraggio del budget, il confronto tra provider (costo/qualità) e decisioni di ottimizzazione, come l'uso di modelli più economici per i campi semplici — un aspetto particolarmente importante quando si elabora un archivio di migliaia di documenti.

Riepilogo

Componente	Ruolo concettuale
Schema	La domanda che si sta ponendo
Provider LLM	Prospettive di conoscenza differenti
Allegati	I suoi archivi come fonte di conoscenza (PDF, immagini, audio, office)
Chiavi di ricerca	Ancore di identità dell'entità durante l'enrichment
ID semantici	Identità stabile dopo l'arricchimento: la spina dorsale del tuo sistema informativo
Domini di competenza	Instradamento a specialisti
Strategie	Come orchestrare le chiamate agli LLM
Elaborazione batch	Arricchimento parallelo su scala d'archivio
Multilingua	Lo stesso dato in ogni lingua in cui opera
Convalida	Garanzia di qualità
Mantieni	Protezione dell'integrità dei dati

Passaggi successivi

Flusso di arricchimento

Guida dettagliata della pipeline di arricchimento

ID semantici

Identità di entità stabile per deduplicazione e interoperabilità

Allegati documento

PDF, immagini, audio e file office come fonti di arricchimento

Arricchimento in batch

Elaborazione parallela per elenchi e archivi

Strategie di arricchimento

Confronta gli approcci a passaggio singolo e multi-dominio di competenza

Fusione multi-modello

Rilevamento e risoluzione dei conflitti tra model