Batch-Verarbeitung - Entity Enricher Dokumentation

Batch-Verarbeitung

Reichern Sie bis zu 100 Entitäten parallel an – mit Echtzeit-Fortschrittsverfolgung, automatischer Multi-Modell-Fusion und Export nach JSON oder Excel.

Eingabemethoden

Batch-Enrichment unterstützt zwei Möglichkeiten, Entity-Daten bereitzustellen:

JSON-Editor

Fügen Sie ein JSON-Array von Entitäten direkt ein oder tippen Sie es. Der Editor bietet Syntaxhervorhebung, Validierungsmarkierungen und speichert Ihre Daten sitzungsübergreifend im lokalen Speicher.

[
  { "name": "Sanofi", "country": "France" },
  { "name": "Pfizer", "country": "USA" },
  { "name": "Novartis", "country": "CH" }
]

URL-Abruf

Entitäten von einem beliebigen REST-API-Endpunkt abrufen. Das System extrahiert automatisch Arrays aus gängigen Antwort-Wrappern.

Unterstützte Authentifizierung:

KeineBearer TokenAPI-Schlüssel-HeaderBasic Auth

Wenn die API ein Objekt zurückgibt, prüft das System Schlüssel wie data, results, items auf ein eingebettetes Array.

Entitätsauswahl & Validierung

Nach dem Laden erscheinen die Entitäten in einer auswählbaren Liste mit Validierungsstatus. Sie können auswählen, welche Entitäten in den Batch aufgenommen werden:

MehrfachauswahlKlicken Sie, um einzelne Entitäten auszuwählen. Umschalt+Klick für Bereiche. Strg+A zum Auswählen aller, Strg+D zum Aufheben der gesamten Auswahl.
Inline-BearbeitungKlicken Sie auf durchsuchbare Schlüsselfelder (Name, Land usw.), um sie vor der Anreicherung direkt in der Liste zu bearbeiten.
ValidierungJede Entity wird anhand der Suchschlüssel des Schemas validiert. Mindestens ein Suchschlüssel muss ausgefüllt sein. Ungültige Entities zeigen Warnungen an, können aber dennoch ausgewählt werden.
Selektive VerarbeitungNur ausgewählte Entitäten werden zur Anreicherung gesendet. Wählen Sie Entitäten ab, die Sie nicht verarbeiten möchten.

Konfiguration

Die Seitenleiste spiegelt die Konfigurationsoptionen der Einzelanreicherung wider:

OptionBeschreibung
SchemaZiel-Schema, das die Struktur der Anreicherungsausgabe definiert
StrategieEinzeldurchlauf, Expertise-Domänen oder Multi-Expertise (parallele Aufrufe pro Domäne)
ModelleEin oder mehrere KI-Modelle, die pro Entität ausgeführt werden. Mehrere Modelle ermöglichen automatische Fusion.
SprachenSprachen für die mehrsprachige Feldanreicherung (z. B. Englisch + Französisch)
KlassifizierungOptionales schnelles Modell zur Verifizierung des Entity-Typs vor der Enrichment
ArbitrierungModell für LLM-basierte Konfliktlösung während der Fusion. Wenn nicht gesetzt, wird eine regelbasierte Zusammenführung verwendet.

Kostenschätzung

Vor dem Start eines Batches zeigt ein Bestätigungsdialog eine Kostenschätzung und eine Zusammenfassung an. Die Schätzung wird auf Basis der Anzahl der Eigenschaften, der Modellpreise sowie der Anzahl der ausgewählten Entitäten und Modelle berechnet. Eine Warnung erscheint, wenn die Gesamtzahl der LLM-Aufrufe 100 überschreitet.

Entitäten
20
Modelle
2
Aufrufe insgesamt
~40
Gesch. Kosten
~$1.50

Parallele Ausführung

Alle ausgewählten Entitäten werden gleichzeitig verarbeitet. Jede Entität durchläuft die vollständige Enrichment-Pipeline unabhängig:

Pipeline pro Entität

  1. Klassifizierung (optional) – Ein schnelles Modell verifiziert den Entitätstyp. Im Batch-Modus pausieren Abweichungen den Job nicht; der Kontext wird durchgereicht.
  2. Multi-Modell-Anreicherung — Jedes ausgewählte Modell reichert die Entität parallel an, mit einer Ratenbegrenzung pro Anbieter.
  3. Auto-Fusion (wenn 2+ Modelle erfolgreich sind) – Ergebnisse werden automatisch mittels Konflikterkennung und -auflösung zusammengeführt.

Ratenbegrenzung

Ein globaler Rate Limiter verhindert eine Überlastung der KI-Anbieter. Alle Entitäten teilen sich dieselben Parallelitätslimits pro Anbieter (in der Regel 5 gleichzeitige Aufrufe pro Anbieter). Bei 20 Entitäten und 2 Modellen laufen bis zu 5 Aufrufe pro Anbieter gleichzeitig – die übrigen warten auf freie Kapazität. Das sorgt für eine zuverlässige Ausführung, ohne die API-Rate-Limits zu überschreiten.

Echtzeit-Fortschritt

Das Ergebnis-Panel zeigt den Live-Fortschritt mithilfe von Server-Sent Events (SSE). Jede Entität verfügt über eine einklappbare Karte, die in Echtzeit aktualisiert wird:

Ausstehend

Warten auf Verarbeitungsstart

Läuft

Wird derzeit angereichert, mit Expertise-Domain-Fortschrittsabzeichen, die den Abschluss pro Domain anzeigen

Abgeschlossen

Alle Modelle erfolgreich abgeschlossen. Karte wird automatisch eingeklappt.

Teilweise

Einige Modelle oder Fachbereiche sind fehlgeschlagen. Teilergebnisse verfügbar.

Fehlgeschlagen

Alle Modelle sind für diese Entität fehlgeschlagen. Fehlerdetails werden angezeigt.

Abbruch & Fehlerbehandlung

Sie können einen laufenden Batch jederzeit abbrechen. Der Abbruch erfolgt kooperativ – Entitäten, die bereits in Bearbeitung sind, schließen ihren aktuellen LLM-Aufruf ab, aber es werden keine neuen Aufrufe gestartet. Teilergebnisse abgeschlossener Entitäten bleiben erhalten.

Fehlerresilienz

Die Batch-Verarbeitung ist auf Ausfallsicherheit ausgelegt. Einzelne Fehler stoppen den Batch nicht:

  • Wenn die Klassifizierung für eine Entität fehlschlägt, wird die Anreicherung ohne Kontext fortgesetzt
  • Wenn ein Modell fehlschlägt, werden andere Modelle für diese Entität fortgesetzt
  • Wenn alle Modelle für eine Entität fehlschlagen, wird sie als fehlgeschlagen markiert, während andere fortgesetzt werden
  • Modelle, die „nicht gefunden“-Fehler zurückgeben, werden automatisch deaktiviert

Exportformate

Nach Abschluss des Batches exportieren Sie die Ergebnisse in drei Formaten. Für jede Entität wird das Fusionsergebnis bevorzugt, sofern verfügbar; andernfalls wird das beste Modellergebnis verwendet.

JSON-Datei

Laden Sie die vollständigen Ergebnisse als strukturierte JSON-Datei mit allen Entitätsdaten, Modellausgaben und Fusions-Metadaten herunter.

Zwischenablage

Kopieren Sie die JSON-Ergebnisse direkt in die Zwischenablage, um sie in andere Tools oder Skripte einzufügen.

Excel

Eine Arbeitsmappe mit drei Tabellenblättern: Results (eine Zeile pro Entität mit abgeflachten Eigenschaften), Summary (Batch-Metadaten, Modelle, Kosten) und Conflicts (Konfliktdetails je Entität mit Begründung der Lösung).

Limits

LimitWert
Max. Entitäten pro Batch100
Max. Entitätsdatengröße50.000 Zeichen
Max. Prompt-Länge100.000 Zeichen
Zeitüberschreitung beim URL-Abruf30 Sekunden

Nächste Schritte