Основные концепции — Документация Entity Enricher

Основные концепции

Entity Enricher превращает два вида знаний в структурированные, проверенные данные: то, что уже известно большим языковым моделям, и то, что лежит непрочитанным в ваших собственных архивах, — PDF-документы, изображения, аудиозаписи, офисные файлы. Каждый извлечённый объект получает стабильную семантическую идентичность, поэтому обогащения накапливаются в целостную информационную систему, а не в груду разрозненных результатов.

Основная идея

Представьте LLM как дистиллированные человеческие знания — миллиарды документов, баз данных и веб-страниц, сжатые в нейронные сети, к которым можно обращаться с запросами. Entity Enricher предоставляет интерфейс для извлечения этих знаний в структурированном, надёжном формате, который соответствует вашей модели данных. А поскольку современные модели умеют также читать PDF, видеть изображения и слышать аудио, тот же интерфейс извлекает структуру из вашего собственного контента: контрактов, отчётов, сканов и записей, которые ваша компания накапливала годами.

Ваши данные и архивы
Частичные записи
Необработанные идентификаторы
PDF и сканы
Изображения и аудио
Схема + LLM
«Что я хочу узнать?»
Ваша информационная система
Структурированные профили
Классификации
Многоязычные поля
Стабильные семантические ID

Два источника знаний

Каждое обогащение опирается на один или оба этих источника. Они дополняют друг друга: модель предоставляет знания о мире и рассуждения; ваши документы предоставляют факты, существующие только внутри вашей организации.

1. Знания модели из обучения

Общеизвестные факты о компаниях, лекарствах, местах, продуктах, нормативных актах — всё, что модель усвоила во время обучения. Дайте ей идентификатор (название, веб-сайт) и схему, и она заполнит остальное: отрасль, год основания, штаб-квартиру, механизмы действия. Документ не требуется.

2. Ваши неструктурированные архивы

Знания, которые так и не попали в базу данных: договоры, счета, отчёты о проверках, отсканированные формы, фотографии товаров, записи звонков. Прикрепите их к обогащению, и модель извлечёт поля вашей схемы прямо из их содержимого — без ручного OCR, транскрибации или копирования-вставки.

Поддерживаемые форматы и режимы доставки см. в разделе Вложения документов.

Три основы

1. Схема: ваш вопрос к базе знаний

Схема — это не просто структура данных, это формализованный вопрос, который вы задаёте коллективному знанию человечества или конкретному документу. Определяя схему со свойствами вроде companyName, industry и headquarters, вы по сути спрашиваете: «Дан идентификатор компании — назовите её имя, в какой отрасли она работает и где расположена её штаб-квартира.»

Концепция схемыНазначение
СвойстваКонкретные факты, которые вы хотите извлечь
ТипыОжидаемый вами формат (строка, число, объект, массив)
Области экспертизыКакой специалист должен ответить (фармацевтический, финансовый, географический)
Ключи поискаИдентификаторы, помогающие найти сущность в базе знаний
Семантический IDСтабильный идентификатор в пределах организации, чтобы один и тот же реальный объект распознавался между обогащениями и в ваших других системах
СохранитьПоля, передаваемые без изменений из ваших входных данных
МногоязычныйПоля предоставляются на каждом языке, с которым вы работаете, — полноценная функция, а не пристёгнутый этап перевода

2. LLM: запрашиваемые знания, мультимодальный ридер

Большие языковые модели представляют собой новый вид базы знаний. В отличие от традиционных баз данных, которые возвращают точные совпадения по хранимым записям, LLM понимают контекст, рассуждают о неполных данных и обобщают на основе закономерностей. И они больше не работают только с текстом: модели с поддержкой зрения читают изображения и отсканированные страницы, модели с поддержкой PDF обрабатывают целые документы, а модели с поддержкой аудио прослушивают записи.

Entity Enricher рассматривает несколько LLM как разные точки зрения на знания. Каждый провайдер приносит свои сильные стороны — Claude отлично справляется с тонкими рассуждениями, GPT-4 обладает широкими знаниями, Gemini предлагает многоязычную глубину, а локальные модели Ollama сохраняют конфиденциальность ваших данных.

Запуск одного и того же обогащения через нескольких провайдеров позволяет сравнивать ответы для оценки уверенности, объединять консенсус нескольких экспертов и балансировать между стоимостью и качеством. Подробнее об этом в разделе Multi-Model Enrichment.

3. Обогащение: извлечение структурированных знаний

Обогащение — это процесс идентификации сущности с помощью поисковых ключей, извлечения релевантных знаний из LLM и любых прикреплённых документов, структурирования ответа в соответствии с вашей схемой, проверки соответствия вывода ожидаемым типам, сохранения ваших исходных данных там, где указано, и, наконец, разрешения идентичности — присвоения каждому объекту его стабильного семантического ID.

Ввод
{ "name": "Novartis", "website": "novartis.com" }
Извлечь ключи → Запрос к LLM → Проверить → Разрешить идентичность
Вывод
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

От обогащений к информационной системе

Каждое обогащение независимо. Спросите дважды — и один и тот же реальный объект может вернуться описанным по-разному: «Acme Inc.» сегодня, «Acme Incorporated» завтра; побочный эффект препарата как «Headache», «Céphalée» или «Cephalalgia» в зависимости от языка или модели. Чтобы действительно строить на обогащённых данных, вам нужна стабильная привязка к одной и той же сущности.

Семантический идентификатор — это идентификатор в рамках организации, который Entity Enricher присваивает объекту по его ключевым полям, сопоставляя их по смыслу, а не по точному написанию. Одна и та же сущность получает один и тот же идентификатор в разных обогащениях, моделях, языках и во времени. Он присваивается автоматически после выполнения модели — никогда не выдумывается LLM — и может относиться к любому объекту: всей сущности, вложенному объекту или каждому элементу списка.

Запуск обогащения №1
«Acme Inc.»
тот же семантический ID
cpt_abc123
Запуск №2 — позже, другая модель или язык
«Acme Incorporated»

Именно это превращает поток обогащений в информационную систему, которую можно развивать и запрашивать:

ИспользоватьЧто это даёт
Ключ объединенияСтабильный ключ для сопоставления обогащённых записей с вашим хранилищем, CRM или системой мастер-данных
ДедупликацияСвести почти-дубликаты, возникшие в разных пакетах, моделях или за годы документов, к одной идентичности
СогласованиеПередайте известный семантический идентификатор обратно, и новые факты присоединятся к уже отслеживаемой сущности, а не создадут новую
Граф знанийОбъекты, на которые ссылаются несколько записей, сходятся в один узел — связи становятся доступными для запросов

Как работает разрешение (кэш точных совпадений, эмбеддинги, пороги схожести), описано в разделе Семантические ID.

Анализ архивов за десятилетия

Большинство компаний сидят на архиве, который никогда не был структурирован: общие диски с договорами и отчётами, отсканированные бумаги, вложения email, записи встреч. Этот архив является базой данных — просто ему никогда не давали строк и столбцов. Сочетание вложений (документы как источник знаний), пакетного обогащения (параллельная обработка) и семантических ID (дедупликация по всему корпусу) превращает его в неё.

Архивные файлы
Прикрепить к обогащению
Схема как вопрос для извлечения
Проверенные структурированные записи
Семантическая идентичность и дедупликация
Ваша база данных

Подробно о рабочем процессе см. в разделе Пакетное обогащение.

Не только текст: мультимодальные источники

Структурированные знания хранятся не только в тексте. Entity Enricher принимает форматы, которые действительно есть в вашем архиве, и направляет каждый из них моделям, способным его прочитать.

PDF-документы
Целые документы с макетом, таблицами и рисунками — читаются напрямую моделями с поддержкой PDF
Изображения
Фотографии, сканы, диаграммы, снимки товаров — интерпретируются моделями зрения, без отдельного этапа OCR
Аудио
Записанные звонки, встречи и голосовые заметки — воспринимаются напрямую моделями с поддержкой аудио
Офис и текст
Word, Excel, PowerPoint, HTML, CSV, Markdown — текст извлекается на сервере и встраивается

Это обеспечивается двумя режимами доставки. В двоичном режиме исходные байты передаются модели, поэтому при преобразовании ничего не теряется — макет таблицы, детали фотографии, слова говорящего. В режиме встроенного текста текст извлекается один раз при загрузке и встраивается в каждый prompt, что работает с любой моделью независимо от её возможностей.

Маршрутизация с учётом возможностей означает, что файл попадает только к моделям, которые действительно могут его обработать — вас предупредят до начала обогащения, а не после его сбоя. Форматы и режимы подробно описаны в разделе Вложения документов.

Области экспертизы: обращение к нужному специалисту

Не все знания одинаковы. Вопрос о механизмах действия лекарств требует иной экспертизы, чем вопрос о корпоративной структуре. Области экспертизы направляют свойства схемы к нужному специалисту внутри LLM, активируя релевантные паттерны знаний для каждой области.

pharmaceutical
Названия препаратов, механизмы действия, показания, регуляторный статус
business_classification
Отраслевые коды, типы компаний, рыночные сегменты
geographic
Местоположения, регионы, информация по конкретным странам
financial
Выручка, рыночная капитализация, раунды финансирования
temporal
Даты, периоды, исторические события
regulatory
Разрешения, лицензии, статус соответствия требованиям

При использовании стратегии множественной экспертизы каждая область получает свой отдельный целенаправленный вызов LLM только с релевантными свойствами схемы, что значительно повышает качество результата.

Средства контроля качества

Проверка и самокоррекция

LLM могут ошибаться. Entity Enricher реализует несколько уровней контроля качества, чтобы автоматически выявлять и исправлять ошибки:

  1. Проверка типов — Гарантирует, что вывод соответствует типам схемы (string, number, boolean и т. д.)
  2. Проверка экспертиз — Проверяет, что все области экспертизы определены и содержат свойства
  3. Самокоррекция — При неудачной проверке ошибки отправляются обратно в LLM для автоматического исправления (до 5 повторов)
  4. Логика сохранения — Исходные значения сохраняемых полей восстанавливаются после обогащения, обеспечивая целостность данных

Ключи поиска: закрепление идентичности во время обогащения

Ключи поиска не дают LLM галлюцинировать о неправильной сущности. Они выполняют две роли:

  • Ключи поиска (название, веб-сайт) — Идентификаторы поиска, которые помогают LLM найти нужную сущность
  • Ключи объединения (product_name в массивах) — Ключи дедупликации для сопоставления элементов массива при объединении результатов нескольких моделей

Промпт обогащения подчёркивает: «Вы обогащаете именно эту сущность, идентифицированную по данным поисковым ключам».

Ключи поиска и семантические ID — две стороны идентичности: ключи поиска помогают LLM найти нужную сущность во время обогащения; семантические ID дают ей постоянную идентичность, на которую полагаются ваши системы после обогащения.

Предварительная классификация

Перед началом обогащения необязательный шаг предварительной классификации может проверить, что сущность действительно соответствует типу схемы. Это предотвращает галлюцинации, когда сущности не совпадают — например, обогащение «Titan» по схеме «Planet», хотя Titan на самом деле является спутником.

Осведомлённость о стоимости

Вызовы LLM стоят денег. Entity Enricher отслеживает использование токенов, стоимость по провайдерам, стоимость обогащения и расходы в рамках организации. Это позволяет контролировать бюджет, сравнивать провайдеров (стоимость и качество) и принимать решения по оптимизации, например использовать более дешёвые модели для простых полей — что особенно важно при обработке архива из тысяч документов.

Сводка

КомпонентКонцептуальная роль
СхемаВопрос, который вы задаёте
Провайдеры LLMРазличные перспективы знаний
ВложенияВаши архивы как источник знаний (PDF, изображения, аудио, офисные документы)
Ключи поискаОпорные точки идентичности сущности во время обогащения
Семантические IDСтабильная идентичность после обогащения — основа вашей информационной системы
Области экспертизыМаршрутизация к специалистам
СтратегииКак оркестрировать вызовы LLM
Пакетная обработкаПараллельное обогащение в масштабе архива
МногоязычныйОдин и тот же факт на каждом языке, на котором вы работаете
ПроверкаКонтроль качества
СохранитьЗащита целостности данных

Дальнейшие шаги