Entity Enricher превращает два вида знаний в структурированные, проверенные данные: то, что уже известно большим языковым моделям, и то, что лежит непрочитанным в ваших собственных архивах, — PDF-документы, изображения, аудиозаписи, офисные файлы. Каждый извлечённый объект получает стабильную семантическую идентичность, поэтому обогащения накапливаются в целостную информационную систему, а не в груду разрозненных результатов.
Представьте LLM как дистиллированные человеческие знания — миллиарды документов, баз данных и веб-страниц, сжатые в нейронные сети, к которым можно обращаться с запросами. Entity Enricher предоставляет интерфейс для извлечения этих знаний в структурированном, надёжном формате, который соответствует вашей модели данных. А поскольку современные модели умеют также читать PDF, видеть изображения и слышать аудио, тот же интерфейс извлекает структуру из вашего собственного контента: контрактов, отчётов, сканов и записей, которые ваша компания накапливала годами.
Каждое обогащение опирается на один или оба этих источника. Они дополняют друг друга: модель предоставляет знания о мире и рассуждения; ваши документы предоставляют факты, существующие только внутри вашей организации.
Общеизвестные факты о компаниях, лекарствах, местах, продуктах, нормативных актах — всё, что модель усвоила во время обучения. Дайте ей идентификатор (название, веб-сайт) и схему, и она заполнит остальное: отрасль, год основания, штаб-квартиру, механизмы действия. Документ не требуется.
Знания, которые так и не попали в базу данных: договоры, счета, отчёты о проверках, отсканированные формы, фотографии товаров, записи звонков. Прикрепите их к обогащению, и модель извлечёт поля вашей схемы прямо из их содержимого — без ручного OCR, транскрибации или копирования-вставки.
Поддерживаемые форматы и режимы доставки см. в разделе Вложения документов.
Схема — это не просто структура данных, это формализованный вопрос, который вы задаёте коллективному знанию человечества или конкретному документу. Определяя схему со свойствами вроде companyName, industry и headquarters, вы по сути спрашиваете: «Дан идентификатор компании — назовите её имя, в какой отрасли она работает и где расположена её штаб-квартира.»
| Концепция схемы | Назначение |
|---|---|
| Свойства | Конкретные факты, которые вы хотите извлечь |
| Типы | Ожидаемый вами формат (строка, число, объект, массив) |
| Области экспертизы | Какой специалист должен ответить (фармацевтический, финансовый, географический) |
| Ключи поиска | Идентификаторы, помогающие найти сущность в базе знаний |
| Семантический ID | Стабильный идентификатор в пределах организации, чтобы один и тот же реальный объект распознавался между обогащениями и в ваших других системах |
| Сохранить | Поля, передаваемые без изменений из ваших входных данных |
| Многоязычный | Поля предоставляются на каждом языке, с которым вы работаете, — полноценная функция, а не пристёгнутый этап перевода |
Большие языковые модели представляют собой новый вид базы знаний. В отличие от традиционных баз данных, которые возвращают точные совпадения по хранимым записям, LLM понимают контекст, рассуждают о неполных данных и обобщают на основе закономерностей. И они больше не работают только с текстом: модели с поддержкой зрения читают изображения и отсканированные страницы, модели с поддержкой PDF обрабатывают целые документы, а модели с поддержкой аудио прослушивают записи.
Entity Enricher рассматривает несколько LLM как разные точки зрения на знания. Каждый провайдер приносит свои сильные стороны — Claude отлично справляется с тонкими рассуждениями, GPT-4 обладает широкими знаниями, Gemini предлагает многоязычную глубину, а локальные модели Ollama сохраняют конфиденциальность ваших данных.
Запуск одного и того же обогащения через нескольких провайдеров позволяет сравнивать ответы для оценки уверенности, объединять консенсус нескольких экспертов и балансировать между стоимостью и качеством. Подробнее об этом в разделе Multi-Model Enrichment.
Обогащение — это процесс идентификации сущности с помощью поисковых ключей, извлечения релевантных знаний из LLM и любых прикреплённых документов, структурирования ответа в соответствии с вашей схемой, проверки соответствия вывода ожидаемым типам, сохранения ваших исходных данных там, где указано, и, наконец, разрешения идентичности — присвоения каждому объекту его стабильного семантического ID.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }Каждое обогащение независимо. Спросите дважды — и один и тот же реальный объект может вернуться описанным по-разному: «Acme Inc.» сегодня, «Acme Incorporated» завтра; побочный эффект препарата как «Headache», «Céphalée» или «Cephalalgia» в зависимости от языка или модели. Чтобы действительно строить на обогащённых данных, вам нужна стабильная привязка к одной и той же сущности.
Семантический идентификатор — это идентификатор в рамках организации, который Entity Enricher присваивает объекту по его ключевым полям, сопоставляя их по смыслу, а не по точному написанию. Одна и та же сущность получает один и тот же идентификатор в разных обогащениях, моделях, языках и во времени. Он присваивается автоматически после выполнения модели — никогда не выдумывается LLM — и может относиться к любому объекту: всей сущности, вложенному объекту или каждому элементу списка.
cpt_abc123Именно это превращает поток обогащений в информационную систему, которую можно развивать и запрашивать:
| Использовать | Что это даёт |
|---|---|
| Ключ объединения | Стабильный ключ для сопоставления обогащённых записей с вашим хранилищем, CRM или системой мастер-данных |
| Дедупликация | Свести почти-дубликаты, возникшие в разных пакетах, моделях или за годы документов, к одной идентичности |
| Согласование | Передайте известный семантический идентификатор обратно, и новые факты присоединятся к уже отслеживаемой сущности, а не создадут новую |
| Граф знаний | Объекты, на которые ссылаются несколько записей, сходятся в один узел — связи становятся доступными для запросов |
Как работает разрешение (кэш точных совпадений, эмбеддинги, пороги схожести), описано в разделе Семантические ID.
Большинство компаний сидят на архиве, который никогда не был структурирован: общие диски с договорами и отчётами, отсканированные бумаги, вложения email, записи встреч. Этот архив является базой данных — просто ему никогда не давали строк и столбцов. Сочетание вложений (документы как источник знаний), пакетного обогащения (параллельная обработка) и семантических ID (дедупликация по всему корпусу) превращает его в неё.
Подробно о рабочем процессе см. в разделе Пакетное обогащение.
Структурированные знания хранятся не только в тексте. Entity Enricher принимает форматы, которые действительно есть в вашем архиве, и направляет каждый из них моделям, способным его прочитать.
Это обеспечивается двумя режимами доставки. В двоичном режиме исходные байты передаются модели, поэтому при преобразовании ничего не теряется — макет таблицы, детали фотографии, слова говорящего. В режиме встроенного текста текст извлекается один раз при загрузке и встраивается в каждый prompt, что работает с любой моделью независимо от её возможностей.
Маршрутизация с учётом возможностей означает, что файл попадает только к моделям, которые действительно могут его обработать — вас предупредят до начала обогащения, а не после его сбоя. Форматы и режимы подробно описаны в разделе Вложения документов.
Не все знания одинаковы. Вопрос о механизмах действия лекарств требует иной экспертизы, чем вопрос о корпоративной структуре. Области экспертизы направляют свойства схемы к нужному специалисту внутри LLM, активируя релевантные паттерны знаний для каждой области.
При использовании стратегии множественной экспертизы каждая область получает свой отдельный целенаправленный вызов LLM только с релевантными свойствами схемы, что значительно повышает качество результата.
LLM могут ошибаться. Entity Enricher реализует несколько уровней контроля качества, чтобы автоматически выявлять и исправлять ошибки:
Ключи поиска не дают LLM галлюцинировать о неправильной сущности. Они выполняют две роли:
Промпт обогащения подчёркивает: «Вы обогащаете именно эту сущность, идентифицированную по данным поисковым ключам».
Ключи поиска и семантические ID — две стороны идентичности: ключи поиска помогают LLM найти нужную сущность во время обогащения; семантические ID дают ей постоянную идентичность, на которую полагаются ваши системы после обогащения.
Перед началом обогащения необязательный шаг предварительной классификации может проверить, что сущность действительно соответствует типу схемы. Это предотвращает галлюцинации, когда сущности не совпадают — например, обогащение «Titan» по схеме «Planet», хотя Titan на самом деле является спутником.
Вызовы LLM стоят денег. Entity Enricher отслеживает использование токенов, стоимость по провайдерам, стоимость обогащения и расходы в рамках организации. Это позволяет контролировать бюджет, сравнивать провайдеров (стоимость и качество) и принимать решения по оптимизации, например использовать более дешёвые модели для простых полей — что особенно важно при обработке архива из тысяч документов.
| Компонент | Концептуальная роль |
|---|---|
| Схема | Вопрос, который вы задаёте |
| Провайдеры LLM | Различные перспективы знаний |
| Вложения | Ваши архивы как источник знаний (PDF, изображения, аудио, офисные документы) |
| Ключи поиска | Опорные точки идентичности сущности во время обогащения |
| Семантические ID | Стабильная идентичность после обогащения — основа вашей информационной системы |
| Области экспертизы | Маршрутизация к специалистам |
| Стратегии | Как оркестрировать вызовы LLM |
| Пакетная обработка | Параллельное обогащение в масштабе архива |
| Многоязычный | Один и тот же факт на каждом языке, на котором вы работаете |
| Проверка | Контроль качества |
| Сохранить | Защита целостности данных |