Modelle & Preise - Entity Enricher Dokumentation

Modelle & Preise

LLM-Anbieter und -Modelle verwalten, Modelle aus externen Registrys synchronisieren, Health-Checks durchführen und API-Keys pro Organisation für eine unabhängige Abrechnung konfigurieren.

Provider-Verwaltung

Entity Enricher unterstützt eine breite Palette von LLM-Providern. Jeder Provider kann mehrere Modelle mit individueller Preisgestaltung, individuellen Fähigkeiten und Konfiguration haben.

Unterstützte Anbieter

AnthropicOpenAIGoogleMistralDeepSeekGroqTogether AIFireworks AICoherexAINVIDIA NIMOllamaAzure OpenAI

Provider-Typen

StandardDie meisten Provider (Anthropic, OpenAI, Mistral usw.) verwenden Standard-API-Endpunkte mit Bearer-Token-Authentifizierung. Ein Standard-Provider kann auch auf einen benutzerdefinierten OpenAI-kompatiblen Endpunkt verweisen – siehe Benutzerdefinierte & Unternehmens-Endpunkte weiter unten.
AzureAzure OpenAI verwendet benutzerdefinierte Deployment-Endpunkte mit API-Versionskonfiguration.
OllamaSelbst gehostete Ollama-Instanzen mit benutzerdefinierten Endpunkt-URLs und automatischer Modellerkennung.

Benutzerdefinierte & Unternehmens-Endpunkte

Viele Teams leiten LLM-Traffic über ein Unternehmens-AI-Gateway, einen regionalen Endpunkt oder einen nicht integrierten Anbieter – zum Beispiel einen Enterprise-LiteLLM-Proxy, Cloudflare AI Gateway oder Alibaba DashScope (für Qwen-Modelle). Diese fügen Sie als eigenen Standard-Anbieter (OpenAI-kompatibel)mit einer benutzerdefinierten Basis-URL hinzu.

Einen Gateway-Provider hinzufügen

  1. Erstellen Sie einen Provider mit einem Namen, der keiner der integrierten Namen ist (z. B. acme-openai-gw). Integrierte Namen wie openai oder anthropic sind reserviert.
  2. Wählen Sie den Typ Standard (OpenAI-kompatibel) und füllen Sie Benutzerdefinierter API-Endpunkt (Basis-URL) aus — z. B. https://gateway.example.com/v1. Dieses Feld ist für jeden Provider erforderlich, für den Entity Enricher keinen integrierten Client hat.
  3. Fügen Sie den Gateway-Schlüssel als Organisationsschlüssel für diesen Provider hinzu (API Keys → AI Provider Keys), damit Abrechnung und Rotation pro Organisation erfolgen.
  4. Fügen Sie die Modelle hinzu, die das Gateway bereitstellt. Die Modellkennung wird wortwörtlich gesendet und muss daher genau dem entsprechen, was das Gateway erwartet.

Gut zu wissen

  • Bei integrierten Providern ist das Endpunkt-Feld ausgeblendet. Anthropic, OpenAI, Mistral und die anderen erkannten Provider kennen ihren Endpunkt bereits, sodass nichts zu konfigurieren ist. Wird ein benutzerdefinierter Provider später integriert, bleibt sein gespeicherter Endpunkt sichtbar, sodass Sie ihn löschen können.
  • Nur öffentliches HTTPS. Endpunkte müssen öffentliche https:// URLs sein. Loopback- und private Adressbereiche (localhost, 10.x, 192.168.x) werden abgelehnt, um SSRF zu verhindern — ein selbst gehosteter Server muss über das Internet erreichbar sein. Für ein lokales Ollama verwenden Sie stattdessen den dedizierten Ollama-Tunnel.
  • OpenAI-kompatibles Übertragungsformat. Aufrufe an einen benutzerdefinierten Anbieter werden über die OpenAI-kompatible API geleitet, daher muss der Endpunkt das OpenAI-/v1-Protokoll unterstützen (Chat Completions, /models).
  • Verbindung testen prüft {endpoint}/models, um den Schlüssel und die Basis-URL zu verifizieren, bevor Sie eine Anreicherung ausführen.

Parallelitätslimits (pro Schlüssel)

Jeder Provider hat eine Einstellung Maximale gleichzeitige Aufrufe pro Schlüssel (seine Rate-Limit-Überschreibung). Sie begrenzt, wie viele LLM-Aufrufe ein einzelner API-Schlüssel parallel ausführt – und deckt dabei jeden Ablauf ab, der den Schlüssel verwendet: das Fan-out der Mehrfach-Expertise-Enrichment, Klassifizierung, Arbitration sowie Schema-/Sample-Generierung.

  • Begrenzt pro Schlüssel, nicht pro Provider. Jeder Organisationsschlüssel und der gemeinsame globale Schlüssel erhält sein eigenes unabhängiges Budget, sodass die parallelen Aufrufe eines Schlüssels niemals die eines anderen verdrängen.
  • Greift auf einen sinnvollen Standardwert zurück, wenn nicht gesetzt (Provider-spezifische Standardwerte, typischerweise 3–5 gleichzeitige Aufrufe).
  • Wird beim nächsten Job wirksam – kein Neustart erforderlich.

Dies ist getrennt vom Limit für maximale gleichzeitige Jobs Ihres Tarifs, das begrenzt, wie viele Anreicherungs-Jobs Ihre gesamte Organisation gleichzeitig über alle Provider hinweg ausführt.

Modellfähigkeiten

Jedes Modell verfolgt seine Fähigkeiten, die als Symbole im Modellauswähler angezeigt werden:

FähigkeitBeschreibung
VisionKann Bild- und visuelle Eingaben verarbeiten
Tool-AufrufeUnterstützt Function Calling / Tool-Nutzung
Audio-EingabeKann Audioeingaben verarbeiten
PDF-EingabeKann PDF-Dokumente verarbeiten
Prompt-CachingUnterstützt Prompt-Caching zur Kostenreduzierung
ReasoningErweiterte Denk- / Chain-of-Thought-Fähigkeiten

Automatische Preissynchronisierung

Halten Sie die Modellpreise durch Synchronisierung aus externen Registrys aktuell. Der Synchronisierungsprozess erkennt neue Modelle, Preisänderungen und entfernte Modelle automatisch.

LiteLLM-Registry

Die Standard-Preisquelle. Ruft Daten aus der von der Community gepflegten LiteLLM-Registry auf GitHub ab, mit echten API-Modellnamen, Preisen, Kontextlängen und Fähigkeiten.

Deckt ~30 Provider ab. Enthält keine Anzeigenamen, Benchmarks oder Generierungsgeschwindigkeit.

PricePerToken

Eine alternative Quelle von pricepertoken.com. Enthält Anzeigenamen, Benchmarks (Coding- und Mathematik-Werte) und Generierungsgeschwindigkeit (Tokens pro Sekunde).

Deckt ~20 Provider ab. Bietet umfangreichere Metadaten als LiteLLM.

Synchronisierungsprozess

  1. Testlauf-Vorschau – Sehen Sie, was sich ändert, bevor Sie es anwenden. Zeigen Sie neue Modelle, Preisaktualisierungen und Deaktivierungen an.
  2. Quellenbezogener Abgleich — Jede Quelle wirkt sich nur auf Modelle dieser Quelle aus. Manuelle Modelle werden nie verändert.
  3. Stabile Synchronisierungsschlüssel — Modelle werden anhand einer stabilen Kennung abgeglichen, nicht anhand des Namens. Sie können Modelle umbenennen, ohne die Synchronisierung zu unterbrechen.
  4. Transaktionale Anwendung – Alle Änderungen werden zur Konsistenz in einer einzigen Datenbanktransaktion angewendet.
  5. Automatische Provider-Erstellung – Gehört ein synchronisiertes Modell zu einem unbekannten Provider, wird der Provider automatisch erstellt.

Modell-Zustandsprüfungen

Prüfen Sie proaktiv, ob Modelle erreichbar sind, indem Sie einen minimalen Health-Check-Prompt ausführen. So werden fehlerhafte Modelle erkannt, bevor Benutzer während der Anreicherung auf Fehler stoßen.

BestandenModell antwortet erfolgreich. Falls es zuvor automatisch deaktiviert wurde, wird es reaktiviert.
Nicht gefundenModell gibt einen „nicht gefunden“-Fehler zurück. Es wird automatisch deaktiviert, um künftige Fehler zu verhindern.
Sonstiger FehlerAuthentifizierungsfehler, Zeitüberschreitungen oder Ratenbegrenzungen werden gemeldet, lösen aber keine Deaktivierung aus.

Zustandsprüfungen können für alle Modelle, die Modelle eines bestimmten Anbieters oder ein einzelnes Modell ausgeführt werden. Die Ergebnisse werden in Echtzeit über SSE gestreamt, mit einem Fortschrittsbalken, der die Anzahl der bestandenen und fehlgeschlagenen Prüfungen anzeigt.

Automatische Deaktivierung

Wenn ein Anreicherungsaufruf mit einem Fehler „Modell nicht gefunden“ fehlschlägt, wird das Modell automatisch deaktiviert, um wiederholte Fehler zu verhindern. Dies geschieht in Echtzeit während des normalen Anreicherungsbetriebs.

DeaktivierungsgrundFestgelegt vonAutomatisch reaktiviert?
Modell nicht gefundenAnreicherungsfehler oder Health-ChecksJa (per Preissynchronisierung oder Validierung)
Durch Sync entferntPreissynchronisierung (Modell verschwunden)Ja (wenn das Modell erneut im Registry erscheint)
ManuellAdmin-Umschalter in der BenutzeroberflächeNein (nur manuelle Reaktivierung)

Bring Your Own Key (BYOK)

Organisationen können ihre eigenen LLM-Provider-API-Schlüssel für unabhängige Abrechnung und Nutzungsverfolgung konfigurieren. Das System verwendet eine zweistufige Schlüsselauflösung mit LRU-Auswahl:

1.
Schlüssel-Pool der Organisation

Schlüssel pro Organisation, die auf der Seite „API-Schlüssel“ konfiguriert werden. Unterstützt mehrere Schlüssel pro Anbieter mit LRU-Rotation. Verschlüsselt mit Fernet.

2.
Globaler Schlüssel-Pool

Systemweite Schlüssel, die von Administratoren verwaltet werden. Für alle Organisationen freigegeben. Unterstützt außerdem mehrere Schlüssel pro Provider mit LRU-Rotation.

Jede Enrichment protokolliert, welcher Schlüssel verwendet wurde, sodass Sie die Kosten pro Schlüssel nachverfolgen können. Schlüssel unterstützen Health-Checks und Nutzungszähler und werden bei dauerhaften Fehlern (ungültiger Schlüssel, Zahlung erforderlich) automatisch deaktiviert. Bei Rate-Limits werden Schlüssel vorübergehend zurückgestellt, während andere Schlüssel im Pool verwendet werden. Wie Sie Schlüssel verwalten, erfahren Sie im Leitfaden API Keys.

Import & Export

Exportieren Sie Ihre gesamte Provider- und Modellkonfiguration als JSON zur Sicherung oder Übertragung auf eine andere Instanz. Der Import ist immer ein Upsert: Bestehende Provider und Modelle werden anhand des Namens abgeglichen und an Ort und Stelle aktualisiert, während neue hinzugefügt werden – nichts wird gelöscht.

Der Export umfasst Anbietereinstellungen, Modellkonfigurationen, Preise, Funktionen und die kanonischen Modellspezifikationen – niemals jedoch API-Schlüssel, die separat gespeichert werden. Konfigurieren Sie API-Schlüssel nach dem Import separat. Systemadministratoren sichern den vollständigen globalen Katalog; Organisationsinhaber exportieren und importieren nur die Anbieter und Modelle ihrer eigenen Organisation – der gemeinsame globale Katalog kann nicht per Import erstellt oder bearbeitet werden.

Nächste Schritte