Concetti fondamentali - Documentazione di Entity Enricher

Concetti fondamentali

Entity Enricher trasforma due tipi di conoscenza in dati strutturati e validati: ciò che i Large Language Model già conoscono e ciò che giace non letto nei vostri archivi — documenti PDF, immagini, registrazioni audio, file per ufficio. Ogni oggetto estratto riceve un'identità semantica stabile, così gli arricchimenti si accumulano in un sistema informativo coerente anziché in un cumulo di risultati isolati.

L'idea di fondo

Considerate gli LLM come conoscenza umana distillata — miliardi di documenti, database e pagine web compressi in reti neurali interrogabili. Entity Enricher fornisce l'interfaccia per estrarre questa conoscenza in un formato strutturato e affidabile che si adatta al vostro modello di dati. E poiché i model moderni sono anche in grado di leggere PDF, vedere immagini e ascoltare audio, la stessa interfaccia estrae la struttura dai vostri contenuti: i contratti, i report, le scansioni e le registrazioni che la vostra azienda ha accumulato negli anni.

I suoi dati e archivi
Record parziali
Identificatori grezzi
PDF e scansioni
Immagini e audio
Schema + LLM
“Cosa voglio sapere?”
Il suo sistema informativo
Profili strutturati
Classification
Campi multilingua
ID semantici stabili

Due fonti di conoscenza

Ogni enrichment attinge a una di queste fonti o a entrambe. Si completano a vicenda: il modello fornisce conoscenza del mondo e ragionamento; i documenti forniscono i fatti che esistono solo all'interno della vostra organizzazione.

1. Le conoscenze di addestramento del modello

Fatti pubblici su aziende, farmaci, luoghi, prodotti, normative: tutto ciò che il modello ha appreso durante l'addestramento. Fornite un identificatore (un nome, un sito web) e uno schema e completa il resto: settore, anno di fondazione, sede centrale, meccanismi d'azione. Nessun documento richiesto.

2. I vostri archivi non strutturati

La conoscenza che non è mai finita in un database: contratti, fatture, rapporti di ispezione, moduli scansionati, foto di prodotti, chiamate registrate. Li alleghi a un arricchimento e il modello estrae direttamente i campi del suo schema dal loro contenuto — senza OCR, trascrizione o copia-incolla manuali.

Consultate Allegati dei documenti per i formati supportati e le modalità di consegna.

Tre pilastri

1. Lo schema: la tua domanda alla base di conoscenza

Uno schema non è solo una struttura di dati — è una domanda formalizzata che si rivolge alla conoscenza collettiva dell'umanità o a un documento specifico. Quando si definisce uno schema con proprietà come companyName, industry e headquarters, si sta essenzialmente chiedendo: «Dato un identificatore di azienda, indicami il suo nome, in quale settore opera e dove ha la sede.»

Concetto di schemaScopo
ProprietàI dati specifici che si desidera estrarre
TipiIl formato previsto (stringa, numero, oggetto, array)
Domini di competenzaQuale specialista dovrebbe rispondere (farmaceutico, finanziario, geografico)
Chiavi di ricercaIdentificatori che aiutano a localizzare l'entità nella knowledge base
ID semanticoUn'identità stabile e circoscritta all'organizzazione, in modo che lo stesso oggetto del mondo reale venga riconosciuto tra i diversi arricchimenti e i vostri altri sistemi
MantieniCampi da trasferire invariati dall'input
MultilinguaCampi forniti in ogni lingua in cui opera — una funzionalità di prima classe, non un passaggio di traduzione aggiunto in un secondo momento

2. Il LLM: conoscenza interrogabile, lettore multimodale

I Large Language Model rappresentano un nuovo tipo di base di conoscenza. A differenza dei database tradizionali, che restituiscono corrispondenze esatte sui record memorizzati, gli LLM comprendono il contesto, ragionano su dati incompleti e generalizzano a partire dai pattern. E non sono più limitati al testo: i modelli con capacità visive leggono immagini e pagine scansionate, i modelli in grado di elaborare PDF acquisiscono interi documenti e i modelli con capacità audio ascoltano le registrazioni.

Entity Enricher tratta più LLM come diverse prospettive di conoscenza. Ogni provider apporta i propri punti di forza — Claude eccelle nel ragionamento sfumato, GPT-4 vanta una conoscenza ampia, Gemini offre profondità multilingue e i modelli locali Ollama mantengono privati i vostri dati.

Eseguire lo stesso arricchimento su più provider consente di confrontare le risposte per valutarne l'affidabilità, aggregare il consenso di più esperti e bilanciare costo e qualità. Scopri di più in Multi-Model Enrichment.

3. L'enrichment: estrazione di conoscenza strutturata

L'arricchimento è il processo di identificazione dell'entità tramite chiavi di ricerca, recupero delle conoscenze pertinenti dall'LLM e da eventuali documenti allegati, strutturazione della risposta in base al suo schema, validazione della corrispondenza dell'output ai tipi attesi, conservazione dei dati originali dove specificato e, infine, risoluzione dell'identità — assegnando a ciascun oggetto il suo ID semantico stabile.

Input
{ "name": "Novartis", "website": "novartis.com" }
Estrai le chiavi → Interroga l'LLM → Convalida → Risolvi l'identità
Output
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

Dagli enrichment a un sistema informativo

Ogni enrichment è indipendente. Chiedete due volte e la stessa entità reale può essere restituita con descrizioni diverse — «Acme Inc.» un giorno, «Acme Incorporated» il giorno dopo; un effetto collaterale di un farmaco come «Headache», «Céphalée» o «Cephalalgia» a seconda della lingua o del modello. Per poter davvero costruire sui dati arricchiti, serve un riferimento stabile per la stessa entità.

Un ID semantico è un identificatore con ambito all'organizzazione che Entity Enricher assegna a un oggetto a partire dai suoi campi chiave, abbinato per significato, non per ortografia esatta. La stessa entità si risolve nello stesso ID attraverso arricchimenti, modelli, lingue e nel tempo. Viene assegnato automaticamente dopo l'esecuzione del modello — mai inventato dall'LLM — e può risiedere su qualsiasi oggetto: l'intera entità, un oggetto annidato o ciascun elemento di un elenco.

Esecuzione di arricchimento #1
“Acme Inc.”
stesso semantic ID
cpt_abc123
Esecuzione n. 2 — più tardi, modello o lingua diversi
“Acme Incorporated”

È questo che trasforma un flusso di enrichment in un sistema informativo che potete far crescere e interrogare:

UsaChe cosa consente
Chiave di joinUna chiave stabile per abbinare i record arricchiti al vostro data warehouse, CRM o sistema di master data
DeduplicazioneComprimi in un'unica identità i quasi-duplicati prodotti tra batch, modelli o anni di documenti
RiconciliazioneInserisci nuovamente un ID semantico noto e i nuovi dati verranno collegati all'entità che stai già monitorando, invece di crearne una nuova
Knowledge graphGli oggetti referenziati da più record convergono in un unico nodo — le relazioni diventano interrogabili

Il funzionamento della risoluzione (cache a corrispondenza esatta, embedding, soglie di similarità) è trattato in ID semantici.

Estrazione da decenni di archivi

La maggior parte delle aziende dispone di un archivio mai strutturato: drive condivisi di contratti e report, documenti cartacei scansionati, allegati email, riunioni registrate. Quell'archivio è un database — semplicemente non gli sono mai state assegnate righe e colonne. Combinando allegati (documenti come fonte di conoscenza), arricchimento in batch (elaborazione parallela) e ID semantici (deduplicazione sull'intero corpus) lo si trasforma in uno.

File di archivio
Allega all'arricchimento
Schema come domanda di estrazione
Record strutturati convalidati
Identità semantica e deduplicazione
Il suo database

Consultate Enrichment in batch per il flusso di lavoro nel dettaglio.

Oltre il testo: fonti multimodali

La conoscenza strutturata non risiede solo nel testo. Entity Enricher accetta i formati effettivamente presenti nel vostro archivio e indirizza ciascuno verso modelli in grado di leggerlo.

Documenti PDF
Documenti interi con layout, tabelle e figure — letti nativamente dai modelli in grado di gestire i PDF
Immagini
Foto, scansioni, diagrammi, immagini di prodotti — interpretati da modelli di visione, senza un passaggio OCR separato
Audio
Chiamate, riunioni e note vocali registrate — ascoltate direttamente da modelli con capacità audio
Office e testo
Word, Excel, PowerPoint, HTML, CSV, Markdown — testo estratto lato server e inserito inline

Due modalità di consegna rendono tutto questo possibile. Nella modalità binaria, i byte originali vengono inviati al modello, così nulla va perso nella conversione — il layout di una tabella, il dettaglio di una foto, le parole di un interlocutore. Nella modalità testo inline, il testo viene estratto una volta durante il caricamento e inserito in ogni prompt, il che funziona con qualsiasi modello indipendentemente dalle sue capacità.

L'instradamento consapevole delle funzionalità fa sì che un file raggiunga soltanto i modelli in grado di elaborarlo effettivamente: si viene avvisati prima che un arricchimento inizi, non dopo che è fallito. Formati e modalità sono descritti in dettaglio in Allegati dei documenti.

Domini di competenza: consultare lo specialista giusto

Non tutte le conoscenze sono uguali. Una domanda sui meccanismi dei farmaci richiede competenze diverse rispetto a una domanda sulla struttura aziendale. Gli expertise domain instradano le proprietà dello schema allo specialista corretto all'interno dell'LLM, attivando i pattern di conoscenza pertinenti per ciascun dominio.

pharmaceutical
Nomi dei farmaci, meccanismi, indicazioni, stato normativo
business_classification
Codici settore, tipi di azienda, segmenti di mercato
geographic
Località, regioni, informazioni specifiche per Paese
financial
Fatturato, capitalizzazione di mercato, round di finanziamento
temporal
Date, periodi, eventi storici
regulatory
Approvazioni, licenze, stato di conformità

Quando si utilizza la strategia multi-competenza, ogni dominio riceve la propria chiamata LLM mirata con le sole proprietà pertinenti dello schema, migliorando notevolmente la qualità dell'output.

Controlli di qualità

Convalida e autocorrezione

Gli LLM possono commettere errori. Entity Enricher implementa più livelli di controllo qualità per individuare e correggere gli errori automaticamente:

  1. Validazione dei tipi — Garantisce che l'output corrisponda ai tipi dello schema (stringa, numero, booleano, ecc.)
  2. Validazione delle competenze — Verifica che tutti i domini di competenza siano definiti e contengano proprietà
  3. Auto-correzione — In caso di fallimento della validazione, gli errori vengono rinviati all'LLM per la correzione automatica (fino a 5 ritentativi)
  4. Logica di conservazione — I valori originali dei campi conservati vengono ripristinati dopo l'enrichment, garantendo l'integrità dei dati

Chiavi di ricerca: ancorare l'identità durante l'enrichment

Le chiavi di ricerca impediscono all'LLM di generare allucinazioni sull'entità sbagliata. Svolgono due ruoli:

  • Search key (nome, sito web) — Identificatori di ricerca che aiutano l'LLM a trovare l'entity corretta
  • Chiavi di unione (product_name negli array) — Chiavi di deduplicazione per abbinare gli elementi degli array durante l'unione dei risultati di più modelli

Il prompt di arricchimento sottolinea: “Stai arricchendo questa specifica entità identificata da queste chiavi di ricerca.”

Le chiavi di ricerca e i semantic ID sono due facce dell'identità: le chiavi di ricerca aiutano l'LLM a trovare l'entità corretta durante l'enrichment; i semantic ID le conferiscono un'identità persistente su cui i vostri sistemi fanno affidamento dopo l'enrichment.

Classification preliminare

Prima dell'inizio dell'arricchimento, un passaggio opzionale di classificazione preliminare può verificare che l'entità corrisponda effettivamente al tipo dello schema. Questo previene le allucinazioni quando le entità non corrispondono — ad esempio, l'arricchimento di “Titano” rispetto a uno schema “Pianeta” quando Titano è in realtà una luna.

Consapevolezza dei costi

Le chiamate LLM hanno un costo. Entity Enricher tiene traccia dell'utilizzo dei token, del costo per provider, del costo per arricchimento e della spesa a livello di organizzazione. Questo consente il monitoraggio del budget, il confronto tra provider (costo/qualità) e decisioni di ottimizzazione, come l'uso di modelli più economici per i campi semplici — un aspetto particolarmente importante quando si elabora un archivio di migliaia di documenti.

Riepilogo

ComponenteRuolo concettuale
SchemaLa domanda che si sta ponendo
Provider LLMProspettive di conoscenza differenti
AllegatiI suoi archivi come fonte di conoscenza (PDF, immagini, audio, office)
Chiavi di ricercaAncore di identità dell'entità durante l'enrichment
ID semanticiIdentità stabile dopo l'arricchimento: la spina dorsale del tuo sistema informativo
Domini di competenzaInstradamento a specialisti
StrategieCome orchestrare le chiamate agli LLM
Elaborazione batchArricchimento parallelo su scala d'archivio
MultilinguaLo stesso dato in ogni lingua in cui opera
ConvalidaGaranzia di qualità
MantieniProtezione dell'integrità dei dati

Passaggi successivi