Conceptos básicos - Documentación de Entity Enricher

Conceptos básicos

Entity Enricher convierte dos tipos de conocimiento en datos estructurados y validados: lo que los modelos de lenguaje grande ya saben y lo que permanece sin leer en sus propios archivos: documentos PDF, imágenes, grabaciones de audio, archivos de oficina. Cada objeto extraído recibe una identidad semántica estable, de modo que los enriquecimientos se acumulan formando un sistema de información coherente en lugar de un montón de resultados aislados.

La idea central

Piense en los LLM como conocimiento humano destilado: miles de millones de documentos, bases de datos y páginas web comprimidos en redes neuronales consultables. Entity Enricher ofrece la interfaz para extraer este conocimiento en un formato estructurado y fiable que se ajusta a su modelo de datos. Y como los modelos modernos también pueden leer PDF, ver imágenes y escuchar audio, la misma interfaz extrae estructura de su propio contenido: los contratos, informes, escaneos y grabaciones que su empresa ha acumulado durante años.

Sus datos y archivos
Registros parciales
Identificadores en bruto
PDF y escaneos
Imágenes y audio
Esquema + LLM
«¿Qué quiero saber?»
Su sistema de información
Perfiles estructurados
Clasificaciones
Campos multilingües
IDs semánticos estables

Dos fuentes de conocimiento

Cada enriquecimiento se basa en una o ambas de estas fuentes. Se complementan entre sí: el modelo aporta conocimiento del mundo y razonamiento; sus documentos aportan los datos que solo existen dentro de su organización.

1. El conocimiento de entrenamiento del modelo

Datos públicos sobre empresas, medicamentos, lugares, productos, regulaciones: cualquier cosa que el modelo haya aprendido durante el entrenamiento. Proporciónele un identificador (un nombre, un sitio web) y un esquema, y completará el resto: sector, año de fundación, sede, mecanismos de acción. No se requiere ningún documento.

2. Sus archivos no estructurados

El conocimiento que nunca llegó a una base de datos: contratos, facturas, informes de inspección, formularios escaneados, fotos de productos, llamadas grabadas. Adjúntelos a un enriquecimiento y el modelo extrae los campos de su esquema directamente de su contenido, sin OCR, transcripción ni copiar y pegar manuales.

Consulte Attachments de documentos para conocer los formatos y modos de entrega compatibles.

Tres pilares

1. El schema: su pregunta a la base de conocimiento

Un esquema no es solo una estructura de datos: es una pregunta formalizada que le plantea al conocimiento colectivo de la humanidad, o a un documento específico. Cuando define un esquema con propiedades como companyName, industry y headquarters, en esencia está preguntando: «Dado un identificador de empresa, indícame su nombre, en qué sector opera y dónde tiene su sede.»

Concepto de esquemaPropósito
PropiedadesLos datos concretos que desea extraer
TiposEl formato que espera (cadena, número, objeto, array)
Dominios de expertiseQué especialista debe responder (farmacéutico, financiero, geográfico)
Claves de búsquedaIdentificadores que ayudan a localizar la entidad en la base de conocimiento
ID semánticoUna identidad estable y limitada a la organización para que el mismo objeto del mundo real se reconozca en los enriquecimientos y en sus demás sistemas
ConservarCampos que se transfieren sin cambios desde su entrada
MultilingüeCampos entregados en todos los idiomas en los que opera: una función de primer nivel, no un paso de traducción añadido

2. El LLM: conocimiento consultable, lector multimodal

Los grandes modelos de lenguaje representan un nuevo tipo de base de conocimiento. A diferencia de las bases de datos tradicionales, que devuelven coincidencias exactas de los registros almacenados, los LLM comprenden el contexto, razonan sobre datos incompletos y generalizan a partir de patrones. Y ya no son solo texto: los modelos con capacidad de visión leen imágenes y páginas escaneadas, los modelos con capacidad de PDF procesan documentos completos y los modelos con capacidad de audio escuchan grabaciones.

Entity Enricher trata a varios LLM como distintas perspectivas de conocimiento. Cada proveedor aporta sus propias fortalezas: Claude destaca en el razonamiento matizado, GPT-4 tiene un conocimiento amplio, Gemini ofrece profundidad multilingüe y los modelos locales de Ollama mantienen sus datos privados.

Ejecutar el mismo enriquecimiento en varios proveedores le permite comparar respuestas para evaluar la confianza, agregar el consenso de varios expertos y equilibrar coste y calidad. Obtenga más información en Multi-Model Enrichment.

3. El enriquecimiento: extracción estructurada de conocimiento

El enriquecimiento es el proceso de identificar la entidad mediante claves de búsqueda, recuperar conocimiento relevante del LLM y de cualquier documento adjunto, estructurar la respuesta según su esquema, validar que la salida coincide con los tipos esperados, preservar sus datos originales donde se especifique y, por último, resolver la identidad —asignando a cada objeto su ID semántico estable.

Entrada
{ "name": "Novartis", "website": "novartis.com" }
Extraer claves → Consultar LLM → Validar → Resolver identidad
Salida
{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

De los enriquecimientos a un sistema de información

Cada enriquecimiento es independiente. Pregunte dos veces y la misma cosa del mundo real puede describirse de forma distinta: «Acme Inc.» un día, «Acme Incorporated» al siguiente; un efecto secundario de un medicamento como «Headache», «Céphalée» o «Cephalalgia» según el idioma o el modelo. Para realmente construir sobre datos enriquecidos, necesita un identificador estable para la misma entidad.

Un ID semántico es un identificador con alcance de organización que Entity Enricher asigna a un objeto a partir de sus campos clave, emparejado por significado, no por la ortografía exacta. La misma entidad se resuelve al mismo ID en todos los enriquecimientos, modelos, idiomas y a lo largo del tiempo. Se asigna automáticamente después de que se ejecuta el modelo —nunca lo inventa el LLM— y puede residir en cualquier objeto: toda la entidad, un objeto anidado o cada elemento de una lista.

Ejecución de enriquecimiento n.º 1
«Acme Inc.»
mismo ID semántico
cpt_abc123
Ejecución n.º 2: más tarde, con un modelo o idioma diferente
«Acme Incorporated»

Esto es lo que convierte un flujo de enriquecimientos en un sistema de información que puede ampliar y consultar:

UsarQué permite
Clave de uniónUna clave estable para cotejar los registros enriquecidos con su almacén de datos, CRM o sistema de datos maestros
DeduplicaciónContraer los casi duplicados generados en distintos lotes, modelos o años de documentos en una sola identidad
ReconciliaciónVuelva a proporcionar un ID semántico conocido y los nuevos datos se adjuntarán a la entidad que ya sigue, en lugar de crear una nueva
Grafo de conocimientoLos objetos referenciados desde varios registros convergen en un solo nodo: las relaciones se vuelven consultables

Cómo funciona la resolución (caché de coincidencia exacta, embeddings, umbrales de similitud) se explica en IDs semánticos.

Explorando décadas de archivos

La mayoría de las empresas se asientan sobre un archivo que nunca se estructuró: unidades compartidas de contratos e informes, papel escaneado, adjuntos de correo, reuniones grabadas. Ese archivo es una base de datos: simplemente nunca se le dieron filas y columnas. Combinar adjuntos (documentos como fuente de conocimiento), enriquecimiento por lotes (procesamiento paralelo) e IDs semánticos (deduplicación en todo el corpus) la convierte en una.

Archivos comprimidos
Adjuntar al enriquecimiento
Esquema como pregunta de extracción
Registros estructurados validados
Identidad semántica y deduplicación
Su base de datos

Consulte Enrichment por batch para ver el flujo de trabajo en detalle.

Más allá del texto: fuentes multimodales

El conocimiento estructurado no reside únicamente en el texto. Entity Enricher admite los formatos que su archivo realmente contiene y dirige cada uno a modelos capaces de leerlo.

Documentos PDF
Documentos completos con diseño, tablas y figuras: leídos de forma nativa por modelos compatibles con PDF
Imágenes
Fotos, escaneos, diagramas, imágenes de productos: interpretados por modelos de visión, sin un paso de OCR aparte
Audio
Llamadas, reuniones y notas de voz grabadas: escuchadas directamente por modelos con capacidad de audio
Office y texto
Word, Excel, PowerPoint, HTML, CSV, Markdown: el texto se extrae en el servidor y se inserta en línea

Dos modos de entrega hacen esto posible. En el modo binario, los bytes originales se envían al modelo, de modo que no se pierde nada en la conversión: el diseño de una tabla, el detalle de una foto, las palabras de un ponente. En el modo de texto en línea, el texto se extrae una vez durante la carga y se incorpora a cada prompt, lo que funciona con cualquier modelo independientemente de sus capacidades.

El enrutamiento según las capacidades significa que un archivo solo llega a los modelos que realmente pueden procesarlo: se le avisa antes de que empiece un enriquecimiento, no después de que falle. Los formatos y modos se detallan en Adjuntos de documentos.

Dominios de expertise: consultar al especialista adecuado

No todo el conocimiento es igual. Una pregunta sobre mecanismos de fármacos requiere una expertise distinta a una pregunta sobre estructura corporativa. Los expertise domains dirigen las propiedades del schema al especialista adecuado dentro del LLM, activando los patrones de conocimiento relevantes para cada domain.

pharmaceutical
Nombres de medicamentos, mecanismos, indicaciones, estado regulatorio
business_classification
Códigos de sector, tipos de empresa, segmentos de mercado
geographic
Ubicaciones, regiones, información específica del país
financial
Ingresos, capitalización de mercado, rondas de financiación
temporal
Fechas, períodos, eventos históricos
regulatory
Aprobaciones, licencias, estado de cumplimiento

Cuando se utiliza la estrategia multi-expertise domain, cada dominio recibe su propia llamada al LLM enfocada, con solo las propiedades relevantes del schema, lo que mejora significativamente la calidad de la salida.

Controles de calidad

Validación y autocorrección

Los LLM pueden cometer errores. Entity Enricher implementa varias capas de control de calidad para detectar y corregir errores automáticamente:

  1. Validación de tipos — Garantiza que la salida coincida con los tipos del esquema (string, number, boolean, etc.)
  2. Validación de especialización — Verifica que todos los dominios de especialización estén definidos y contengan propiedades
  3. Autocorrección — Cuando la validación falla, los errores se devuelven al LLM para su corrección automática (hasta 5 reintentos)
  4. Lógica de conservación — Los valores originales de los campos conservados se restauran tras el enriquecimiento, garantizando la integridad de los datos

Claves de búsqueda: anclar la identidad durante el enrichment

Las claves de búsqueda evitan que el LLM alucine sobre la entidad equivocada. Cumplen dos funciones:

  • Claves de búsqueda (nombre, sitio web) — Identificadores de búsqueda que ayudan al LLM a encontrar la entidad correcta
  • Claves de combinación (product_name en arreglos) — Claves de deduplicación para emparejar elementos de arreglos al combinar los resultados de varios modelos

El prompt de enriquecimiento subraya: «Está enriqueciendo esta entidad específica identificada por estas claves de búsqueda.»

Las claves de búsqueda y los IDs semánticos son dos caras de la identidad: las claves de búsqueda ayudan al LLM a encontrar la entidad correcta durante el enrichment; los IDs semánticos le dan una identidad persistente en la que sus sistemas se apoyan después del enrichment.

Clasificación previa

Antes de que comience el enriquecimiento, un paso opcional de clasificación previa puede verificar que la entidad realmente coincida con el tipo de esquema. Esto evita alucinaciones cuando las entidades no coinciden — por ejemplo, enriquecer «Titán» con un esquema de «Planeta» cuando Titán es en realidad una luna.

Conciencia de costos

Las llamadas al LLM tienen costes. Entity Enricher realiza el seguimiento del uso de tokens, el coste por proveedor, el coste por enriquecimiento y el gasto por organización. Esto permite supervisar presupuestos, comparar proveedores (coste frente a calidad) y tomar decisiones de optimización, como usar modelos más económicos para campos simples, lo cual resulta especialmente relevante al procesar un archivo de miles de documentos.

Resumen

ComponenteRol conceptual
EsquemaLa pregunta que está haciendo
Proveedores de LLMDiferentes perspectivas de conocimiento
AdjuntosSus archivos como fuente de conocimiento (PDF, imagen, audio, office)
Claves de búsquedaAnclas de identidad de entidad durante el enriquecimiento
IDs semánticosIdentidad estable tras el enriquecimiento: la columna vertebral de su sistema de información
Dominios de expertiseEnrutamiento a especialistas
EstrategiasCómo orquestar las llamadas al LLM
Procesamiento por lotesEnriquecimiento en paralelo a escala de archivo
MultilingüeEl mismo dato en cada idioma en el que opera
ValidaciónAseguramiento de la calidad
ConservarProtección de la integridad de los datos

Próximos pasos