Предварительная классификация проверяет, соответствует ли сущность ожидаемому типу схемы до начала обогащения. Этот необязательный шаг предотвращает галлюцинации и напрасный расход токенов, когда сущности не соответствуют вашей схеме.
LLM охотно помогают. Когда их просят обогатить сущность по схеме, они выдают структурированный результат, даже если сущность вообще не соответствует типу схемы. Это приводит к галлюцинированным данным, которые выглядят правдоподобно, но полностью ошибочны.
Схема: «Planet» — Сущность: «Titan»
LLM воспринимает Титан как планету и придумывает данные: орбитальный период, состав атмосферы, количество спутников — всё выглядит правдоподобно, но неверно. На самом деле Титан — спутник Сатурна.
Классификация обнаруживает: «несоответствие — Титан это спутник, а не планета»
Модели обогащения получают этот контекст, устанавливают нерелевантные поля в null и заполняют только те свойства, которые действительно применимы к сущности.
Классификация выполняется как один быстрый вызов LLM до запуска любых моделей обогащения. Она использует дешёвую и быструю модель (например, Claude Haiku или GPT-4o Mini) для минимизации затрат.
Сущность соответствует типу схемы. Обогащение выполняется с высокой уверенностью.
Сущность имеет тип, отличный от ожидаемого схемой. Классификация объясняет, чем на самом деле является сущность.
Сущность невозможно идентифицировать с уверенностью. У LLM недостаточно информации для её классификации.
Существует несколько допустимых интерпретаций. Классификация перечисляет альтернативы.
Классификация носит исключительно рекомендательный характер. Если вызов классификации по какой-либо причине не удаётся (ошибка модели, тайм-аут, ограничение частоты запросов), обогащение продолжается в обычном режиме без контекста классификации. Это гарантирует, что необязательный шаг классификации никогда не помешает завершению обогащения.
Классификация рассчитана на работу с быстрыми и недорогими моделями. Она отправляет минимальный объём данных (название схемы, описание и усечённые данные сущности) и ожидает небольшой структурированный ответ. Обычно стоимость составляет малую долю от самого обогащения — это вполне оправдано ради повышения точности.
Интерфейс показывает ход классификации в реальном времени через Server-Sent Events. Событие classification_started срабатывает в начале проверки, за ним следует classification_completed со статусом, уверенностью и описанием сущности. Результат отображается в виде баннера над результатами модели.
Если вы отмените обогащение на этапе классификации, задача немедленно останавливается, не запуская ни одной модели обогащения. Лишние токены не расходуются.
В редакторе схем или на боковой панели пакетного обогащения найдите выпадающий список «Классификация». Выберите быструю и недорогую модель (Claude Haiku, GPT-4o Mini или подобную). Классификация будет выполняться автоматически перед началом обогащения каждой сущности.
При использовании REST API включите поле classification_model в свой запрос на обогащение с составным ключом модели (например, anthropic::claude-haiku-4-5).