Modelli e prezzi - Documentazione di Entity Enricher

Modelli e prezzi

Gestisci provider e modelli LLM, sincronizza i modelli da registri esterni, esegui controlli di integrità e configura chiavi API per organizzazione per una fatturazione indipendente.

Gestione Provider

Entity Enricher supporta un'ampia gamma di provider LLM. Ogni provider può disporre di più modelli con prezzi, funzionalità e configurazione individuali.

Provider supportati

AnthropicOpenAIGoogleMistralDeepSeekGroqTogether AIFireworks AICoherexAINVIDIA NIMOllamaAzure OpenAI

Tipi di Provider

StandardLa maggior parte dei provider (Anthropic, OpenAI, Mistral, ecc.) utilizza endpoint API standard con autenticazione tramite bearer token. Un provider Standard può anche puntare a un endpoint personalizzato compatibile con OpenAI — consultare Endpoint personalizzati e aziendali di seguito.
AzureAzure OpenAI utilizza endpoint di deployment personalizzati con configurazione della versione API.
OllamaIstanze Ollama self-hosted con URL endpoint personalizzati e rilevamento automatico dei modelli.

Endpoint personalizzati e aziendali

Molti team instradano il traffico LLM attraverso un gateway AI aziendale, un endpoint regionale o un provider non integrato — ad esempio un proxy LiteLLM enterprise, Cloudflare AI Gateway o Alibaba DashScope (per i modelli Qwen). Puoi aggiungerli come provider Standard (compatibile con OpenAI) con un URL di base personalizzato.

Aggiunta di un provider gateway

  1. Crea un provider con un nome che non sia tra quelli integrati (ad es. acme-openai-gw). I nomi integrati come openai o anthropic sono riservati.
  2. Scegliere il tipo Standard (compatibile con OpenAI) e compilare Endpoint API personalizzato (base URL) — ad es. https://gateway.example.com/v1. Questo campo è obbligatorio per qualsiasi provider per cui Entity Enricher non dispone di un client integrato.
  3. Aggiungi la chiave del gateway come Chiave dell'organizzazione per quel provider (API Keys → AI Provider Keys), in modo che venga fatturata e ruotata per organizzazione.
  4. Aggiungi i modelli forniti dal gateway. L'identificatore del modello viene inviato testualmente, pertanto deve corrispondere esattamente a quanto previsto dal gateway.

Buono a sapersi

  • I provider integrati nascondono il campo endpoint. Anthropic, OpenAI, Mistral e gli altri provider riconosciuti conoscono già il proprio endpoint, quindi non c'è nulla da configurare. Se in seguito un provider personalizzato diventa integrato, il suo endpoint memorizzato resta visibile in modo da poterlo cancellare.
  • Solo HTTPS pubblico. Gli endpoint devono essere URL pubblici https://. Loopback e intervalli privati (localhost, 10.x, 192.168.x) vengono rifiutati per prevenire SSRF — un server self-hosted deve essere raggiungibile via internet. Per un Ollama locale, utilizzare invece il tunnel Ollama dedicato.
  • Formato wire compatibile con OpenAI. Le chiamate a un provider personalizzato vengono instradate attraverso l'API compatibile con OpenAI, quindi l'endpoint deve parlare il protocollo OpenAI /v1 (chat completions, /models).
  • Test connessione interroga {endpoint}/models per verificare la chiave e l'URL di base prima di eseguire un arricchimento.

Limiti di concorrenza (per chiave)

Ogni provider dispone di un'impostazione Numero massimo di chiamate simultanee per chiave (l'override del suo limite di frequenza). Limita quante chiamate LLM esegue in parallelo una singola chiave API — coprendo ogni flusso che utilizza la chiave: la distribuzione dell'enrichment multi-expertise, la classification, l'arbitration e la generazione di schema / campioni.

  • Limitato per chiave, non per provider. Ogni chiave dell'organizzazione e la chiave globale condivisa dispone di un proprio budget indipendente, così le chiamate parallele di una chiave non tolgono mai spazio a quelle di un'altra.
  • Ricorre a un valore predefinito sensato quando lasciato vuoto (valori predefiniti per provider, in genere 3–5 chiamate simultanee).
  • Ha effetto sul lavoro successivo — nessun riavvio necessario.

Questo è distinto dal limite di job concorrenti massimi del vostro piano, che stabilisce quanti job di enrichment l'intera organization può eseguire contemporaneamente su tutti i provider.

Capacità del modello

Ogni model tiene traccia delle proprie capacità, che vengono visualizzate come icone nel selettore di model:

FunzionalitàDescrizione
VisionePuò elaborare input di immagini e visivi
Chiamate agli strumentiSupporta function calling / uso di strumenti
Input audioPuò elaborare input audio
Input PDFPuò elaborare documenti PDF
Caching dei promptSupporta il caching dei prompt per la riduzione dei costi
RagionamentoCapacità di extended thinking / catena di ragionamento

Sincronizzazione automatica dei prezzi

Mantieni aggiornati i prezzi dei modelli sincronizzandoli dai registri esterni. Il processo di sincronizzazione rileva automaticamente nuovi modelli, variazioni di prezzo e modelli rimossi.

Registro LiteLLM

La fonte di prezzi predefinita. Recupera i dati dal registro mantenuto dalla community di LiteLLM su GitHub, con nomi reali dei modelli API, prezzi, lunghezze di contesto e capacità.

Copre circa 30 provider. Non include nomi visualizzati, benchmark o velocità di generazione.

PricePerToken

Una fonte alternativa da pricepertoken.com. Include nomi visualizzati, benchmark (punteggi di coding e matematica) e velocità di generazione (token al secondo).

Copre circa 20 provider. Fornisce metadati più ricchi rispetto a LiteLLM.

Processo di sincronizzazione

  1. Anteprima dry-run — Visualizzi cosa cambierà prima di applicare. Consulti nuovi modelli, aggiornamenti dei prezzi e disattivazioni.
  2. Corrispondenza per sorgente — Ogni sorgente influisce solo sui modelli provenienti da quella sorgente. I modelli manuali non vengono mai toccati.
  3. Chiavi di sincronizzazione stabili — I modelli vengono associati tramite un identificatore stabile, non tramite il nome. È possibile rinominare i modelli senza compromettere la sincronizzazione.
  4. Applicazione transazionale — Tutte le modifiche vengono applicate in un'unica transazione di database per garantire la coerenza.
  5. Creazione automatica del provider — Se un modello sincronizzato appartiene a un provider sconosciuto, il provider viene creato automaticamente.

Controlli di integrità del modello

Convalida in modo proattivo la raggiungibilità dei model eseguendo un prompt minimo di health check. Ciò intercetta i model non funzionanti prima che gli utenti incontrino errori durante l'enrichment.

SuperatoIl modello risponde correttamente. Se in precedenza era stato disattivato automaticamente, viene riattivato.
Non trovatoIl modello restituisce un errore “non trovato”. Viene disattivato automaticamente per evitare guasti futuri.
Altro erroreGli errori di autenticazione, i timeout o i limiti di frequenza vengono segnalati ma non attivano la disattivazione.

I controlli di integrità possono essere eseguiti su tutti i modelli, sui modelli di un provider specifico o su un singolo modello. I risultati vengono trasmessi in tempo reale tramite SSE con una barra di avanzamento che mostra il conteggio dei successi/fallimenti.

Disattivazione automatica

Quando una chiamata di arricchimento fallisce con un errore «modello non trovato», il modello viene automaticamente disattivato per evitare errori ripetuti. Ciò avviene in tempo reale durante le normali operazioni di arricchimento.

Motivo della disattivazioneImpostato daRiattivato automaticamente?
Modello non trovatoErrori di arricchimento o controlli di statoSì (tramite sincronizzazione dei prezzi o validazione)
Sincronizzazione rimossaSincronizzazione prezzi (model scomparso)Sì (se il model riappare nel registro)
ManualeInterruttore admin nell'interfaccia utenteNo (solo riattivazione manuale)

Bring Your Own Key (BYOK)

Le organizzazioni possono configurare le proprie chiavi API dei provider LLM per una fatturazione e un monitoraggio dell'utilizzo indipendenti. Il sistema utilizza una risoluzione delle chiavi a due livelli con selezione LRU:

Pool di chiavi dell'organizzazione

Chiavi per organizzazione configurate nella pagina Chiavi API. Supporta più chiavi per provider con rotazione LRU. Crittografate con Fernet.

Pool di chiavi globali

Chiavi a livello di sistema gestite dagli amministratori. Condivise tra tutte le organization. Supporta anche più chiavi per provider con rotazione LRU.

Ogni enrichment registra quale chiave è stata utilizzata, così è possibile monitorare i costi per chiave. Le chiavi includono il supporto per il controllo dello stato, contatori di utilizzo e vengono disabilitate automaticamente in caso di errori permanenti (chiave non valida, pagamento richiesto). Le chiavi soggette a limitazione della frequenza vengono temporaneamente sospese mentre vengono utilizzate altre chiavi del pool. Scoprite come gestire le chiavi nella guida Chiavi API.

Importa ed Esporta

Esporta l'intera configurazione di provider e model come JSON per il backup o il trasferimento su un'altra istanza. L'importazione è sempre un upsert: i provider e i model esistenti vengono abbinati per nome e aggiornati sul posto, mentre quelli nuovi vengono aggiunti — nulla viene eliminato.

L'esportazione include le impostazioni del provider, le configurazioni dei modelli, i prezzi, le capacità e le specifiche canoniche dei modelli, ma mai le chiavi API, che vengono memorizzate separatamente. Dopo l'importazione, configurare le chiavi API separatamente. Gli amministratori di sistema eseguono il backup dell'intero catalogo globale; i proprietari dell'organizzazione esportano e importano solo i provider e i modelli della propria organizzazione — il catalogo globale condiviso non può essere creato o modificato tramite importazione.

Passaggi successivi