Conceptos básicos - Documentación de Entity Enricher

Conceptos básicos

Entity Enricher convierte dos tipos de conocimiento en datos estructurados y validados: lo que los modelos de lenguaje grande ya saben y lo que permanece sin leer en sus propios archivos: documentos PDF, imágenes, grabaciones de audio, archivos de oficina. Cada objeto extraído recibe una identidad semántica estable, de modo que los enriquecimientos se acumulan formando un sistema de información coherente en lugar de un montón de resultados aislados.

La idea central

Piense en los LLM como conocimiento humano destilado: miles de millones de documentos, bases de datos y páginas web comprimidos en redes neuronales consultables. Entity Enricher ofrece la interfaz para extraer este conocimiento en un formato estructurado y fiable que se ajusta a su modelo de datos. Y como los modelos modernos también pueden leer PDF, ver imágenes y escuchar audio, la misma interfaz extrae estructura de su propio contenido: los contratos, informes, escaneos y grabaciones que su empresa ha acumulado durante años.

Sus datos y archivos

Registros parciales

Identificadores en bruto

PDF y escaneos

Imágenes y audio

Esquema + LLM

«¿Qué quiero saber?»

Su sistema de información

Perfiles estructurados

Clasificaciones

Campos multilingües

IDs semánticos estables

Dos fuentes de conocimiento

Cada enriquecimiento se basa en una o ambas de estas fuentes. Se complementan entre sí: el modelo aporta conocimiento del mundo y razonamiento; sus documentos aportan los datos que solo existen dentro de su organización.

1. El conocimiento de entrenamiento del modelo

Datos públicos sobre empresas, medicamentos, lugares, productos, regulaciones: cualquier cosa que el modelo haya aprendido durante el entrenamiento. Proporciónele un identificador (un nombre, un sitio web) y un esquema, y completará el resto: sector, año de fundación, sede, mecanismos de acción. No se requiere ningún documento.

2. Sus archivos no estructurados

El conocimiento que nunca llegó a una base de datos: contratos, facturas, informes de inspección, formularios escaneados, fotos de productos, llamadas grabadas. Adjúntelos a un enriquecimiento y el modelo extrae los campos de su esquema directamente de su contenido, sin OCR, transcripción ni copiar y pegar manuales.

Consulte Attachments de documentos para conocer los formatos y modos de entrega compatibles.

Tres pilares

1. El schema: su pregunta a la base de conocimiento

Un esquema no es solo una estructura de datos: es una pregunta formalizada que le plantea al conocimiento colectivo de la humanidad, o a un documento específico. Cuando define un esquema con propiedades como companyName, industry y headquarters, en esencia está preguntando: «Dado un identificador de empresa, indícame su nombre, en qué sector opera y dónde tiene su sede.»

Concepto de esquema	Propósito
Propiedades	Los datos concretos que desea extraer
Tipos	El formato que espera (cadena, número, objeto, array)
Dominios de expertise	Qué especialista debe responder (farmacéutico, financiero, geográfico)
Claves de búsqueda	Identificadores que ayudan a localizar la entidad en la base de conocimiento
ID semántico	Una identidad estable y limitada a la organización para que el mismo objeto del mundo real se reconozca en los enriquecimientos y en sus demás sistemas
Conservar	Campos que se transfieren sin cambios desde su entrada
Multilingüe	Campos entregados en todos los idiomas en los que opera: una función de primer nivel, no un paso de traducción añadido

2. El LLM: conocimiento consultable, lector multimodal

Los grandes modelos de lenguaje representan un nuevo tipo de base de conocimiento. A diferencia de las bases de datos tradicionales, que devuelven coincidencias exactas de los registros almacenados, los LLM comprenden el contexto, razonan sobre datos incompletos y generalizan a partir de patrones. Y ya no son solo texto: los modelos con capacidad de visión leen imágenes y páginas escaneadas, los modelos con capacidad de PDF procesan documentos completos y los modelos con capacidad de audio escuchan grabaciones.

Entity Enricher trata a varios LLM como distintas perspectivas de conocimiento. Cada proveedor aporta sus propias fortalezas: Claude destaca en el razonamiento matizado, GPT-4 tiene un conocimiento amplio, Gemini ofrece profundidad multilingüe y los modelos locales de Ollama mantienen sus datos privados.

Ejecutar el mismo enriquecimiento en varios proveedores le permite comparar respuestas para evaluar la confianza, agregar el consenso de varios expertos y equilibrar coste y calidad. Obtenga más información en Multi-Model Enrichment.

3. El enriquecimiento: extracción estructurada de conocimiento

El enriquecimiento es el proceso de identificar la entidad mediante claves de búsqueda, recuperar conocimiento relevante del LLM y de cualquier documento adjunto, estructurar la respuesta según su esquema, validar que la salida coincide con los tipos esperados, preservar sus datos originales donde se especifique y, por último, resolver la identidad —asignando a cada objeto su ID semántico estable.

Entrada

{ "name": "Novartis", "website": "novartis.com" }

Extraer claves → Consultar LLM → Validar → Resolver identidad

Salida

{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }

De los enriquecimientos a un sistema de información

Cada enriquecimiento es independiente. Pregunte dos veces y la misma cosa del mundo real puede describirse de forma distinta: «Acme Inc.» un día, «Acme Incorporated» al siguiente; un efecto secundario de un medicamento como «Headache», «Céphalée» o «Cephalalgia» según el idioma o el modelo. Para realmente construir sobre datos enriquecidos, necesita un identificador estable para la misma entidad.

Un ID semántico es un identificador con alcance de organización que Entity Enricher asigna a un objeto a partir de sus campos clave, emparejado por significado, no por la ortografía exacta. La misma entidad se resuelve al mismo ID en todos los enriquecimientos, modelos, idiomas y a lo largo del tiempo. Se asigna automáticamente después de que se ejecuta el modelo —nunca lo inventa el LLM— y puede residir en cualquier objeto: toda la entidad, un objeto anidado o cada elemento de una lista.

Ejecución de enriquecimiento n.º 1

«Acme Inc.»

mismo ID semántico

cpt_abc123

Ejecución n.º 2: más tarde, con un modelo o idioma diferente

«Acme Incorporated»

Esto es lo que convierte un flujo de enriquecimientos en un sistema de información que puede ampliar y consultar:

Usar	Qué permite
Clave de unión	Una clave estable para cotejar los registros enriquecidos con su almacén de datos, CRM o sistema de datos maestros
Deduplicación	Contraer los casi duplicados generados en distintos lotes, modelos o años de documentos en una sola identidad
Reconciliación	Vuelva a proporcionar un ID semántico conocido y los nuevos datos se adjuntarán a la entidad que ya sigue, en lugar de crear una nueva
Grafo de conocimiento	Los objetos referenciados desde varios registros convergen en un solo nodo: las relaciones se vuelven consultables

Cómo funciona la resolución (caché de coincidencia exacta, embeddings, umbrales de similitud) se explica en IDs semánticos.

Explorando décadas de archivos

La mayoría de las empresas se asientan sobre un archivo que nunca se estructuró: unidades compartidas de contratos e informes, papel escaneado, adjuntos de correo, reuniones grabadas. Ese archivo es una base de datos: simplemente nunca se le dieron filas y columnas. Combinar adjuntos (documentos como fuente de conocimiento), enriquecimiento por lotes (procesamiento paralelo) e IDs semánticos (deduplicación en todo el corpus) la convierte en una.

Archivos comprimidos

Adjuntar al enriquecimiento

Esquema como pregunta de extracción

Registros estructurados validados

Identidad semántica y deduplicación

Su base de datos

Lotes a escala: las entidades se enriquecen en paralelo con progreso en vivo por entidad, estimaciones de coste por adelantado y reintento selectivo para las pocas que fallen
Extracción protegida — la clasificación previa y la validación de esquema evitan que un documento mal archivado contamine sus registros con disparates presentados con seguridad
Identidad convergente — el mismo proveedor que aparece en un contrato de 2009 y en una factura de 2024 se resuelve al mismo ID semántico, de modo que el archivo se consolida en datos maestros limpios
Salida a través de la API — los resultados se exportan como JSON validado o fluyen directamente a sus sistemas mediante la API REST y los conectores (n8n, Make, MCP)

Consulte Enrichment por batch para ver el flujo de trabajo en detalle.

Más allá del texto: fuentes multimodales

El conocimiento estructurado no reside únicamente en el texto. Entity Enricher admite los formatos que su archivo realmente contiene y dirige cada uno a modelos capaces de leerlo.

Documentos PDF

Documentos completos con diseño, tablas y figuras: leídos de forma nativa por modelos compatibles con PDF

Imágenes

Fotos, escaneos, diagramas, imágenes de productos: interpretados por modelos de visión, sin un paso de OCR aparte

Audio

Llamadas, reuniones y notas de voz grabadas: escuchadas directamente por modelos con capacidad de audio

Office y texto

Word, Excel, PowerPoint, HTML, CSV, Markdown: el texto se extrae en el servidor y se inserta en línea

Dos modos de entrega hacen esto posible. En el modo binario, los bytes originales se envían al modelo, de modo que no se pierde nada en la conversión: el diseño de una tabla, el detalle de una foto, las palabras de un ponente. En el modo de texto en línea, el texto se extrae una vez durante la carga y se incorpora a cada prompt, lo que funciona con cualquier modelo independientemente de sus capacidades.

El enrutamiento según las capacidades significa que un archivo solo llega a los modelos que realmente pueden procesarlo: se le avisa antes de que empiece un enriquecimiento, no después de que falle. Los formatos y modos se detallan en Adjuntos de documentos.

Dominios de expertise: consultar al especialista adecuado

No todo el conocimiento es igual. Una pregunta sobre mecanismos de fármacos requiere una expertise distinta a una pregunta sobre estructura corporativa. Los expertise domains dirigen las propiedades del schema al especialista adecuado dentro del LLM, activando los patrones de conocimiento relevantes para cada domain.

pharmaceutical

Nombres de medicamentos, mecanismos, indicaciones, estado regulatorio

business_classification

Códigos de sector, tipos de empresa, segmentos de mercado

geographic

Ubicaciones, regiones, información específica del país

financial

Ingresos, capitalización de mercado, rondas de financiación

temporal

Fechas, períodos, eventos históricos

regulatory

Aprobaciones, licencias, estado de cumplimiento

Cuando se utiliza la estrategia multi-expertise domain, cada dominio recibe su propia llamada al LLM enfocada, con solo las propiedades relevantes del schema, lo que mejora significativamente la calidad de la salida.

Controles de calidad

Validación y autocorrección

Los LLM pueden cometer errores. Entity Enricher implementa varias capas de control de calidad para detectar y corregir errores automáticamente:

Validación de tipos — Garantiza que la salida coincida con los tipos del esquema (string, number, boolean, etc.)
Validación de especialización — Verifica que todos los dominios de especialización estén definidos y contengan propiedades
Autocorrección — Cuando la validación falla, los errores se devuelven al LLM para su corrección automática (hasta 5 reintentos)
Lógica de conservación — Los valores originales de los campos conservados se restauran tras el enriquecimiento, garantizando la integridad de los datos

Claves de búsqueda: anclar la identidad durante el enrichment

Las claves de búsqueda evitan que el LLM alucine sobre la entidad equivocada. Cumplen dos funciones:

Claves de búsqueda (nombre, sitio web) — Identificadores de búsqueda que ayudan al LLM a encontrar la entidad correcta
Claves de combinación (product_name en arreglos) — Claves de deduplicación para emparejar elementos de arreglos al combinar los resultados de varios modelos

El prompt de enriquecimiento subraya: «Está enriqueciendo esta entidad específica identificada por estas claves de búsqueda.»

Las claves de búsqueda y los IDs semánticos son dos caras de la identidad: las claves de búsqueda ayudan al LLM a encontrar la entidad correcta durante el enrichment; los IDs semánticos le dan una identidad persistente en la que sus sistemas se apoyan después del enrichment.

Clasificación previa

Antes de que comience el enriquecimiento, un paso opcional de clasificación previa puede verificar que la entidad realmente coincida con el tipo de esquema. Esto evita alucinaciones cuando las entidades no coinciden — por ejemplo, enriquecer «Titán» con un esquema de «Planeta» cuando Titán es en realidad una luna.

Conciencia de costos

Las llamadas al LLM tienen costes. Entity Enricher realiza el seguimiento del uso de tokens, el coste por proveedor, el coste por enriquecimiento y el gasto por organización. Esto permite supervisar presupuestos, comparar proveedores (coste frente a calidad) y tomar decisiones de optimización, como usar modelos más económicos para campos simples, lo cual resulta especialmente relevante al procesar un archivo de miles de documentos.

Resumen

Componente	Rol conceptual
Esquema	La pregunta que está haciendo
Proveedores de LLM	Diferentes perspectivas de conocimiento
Adjuntos	Sus archivos como fuente de conocimiento (PDF, imagen, audio, office)
Claves de búsqueda	Anclas de identidad de entidad durante el enriquecimiento
IDs semánticos	Identidad estable tras el enriquecimiento: la columna vertebral de su sistema de información
Dominios de expertise	Enrutamiento a especialistas
Estrategias	Cómo orquestar las llamadas al LLM
Procesamiento por lotes	Enriquecimiento en paralelo a escala de archivo
Multilingüe	El mismo dato en cada idioma en el que opera
Validación	Aseguramiento de la calidad
Conservar	Protección de la integridad de los datos

Próximos pasos

Flujo de enriquecimiento

Recorrido paso a paso del pipeline de enriquecimiento

IDs semánticos

Identidad de entidad estable para la deduplicación y la interoperabilidad

Adjuntos de documentos

PDF, imágenes, audio y archivos de oficina como fuentes de enriquecimiento

Enriquecimiento por lotes

Procesamiento en paralelo para listas y archivos

Estrategias de enriquecimiento

Compare enfoques de paso único frente a multiexperiencia

Fusión multimodelo

Detección y resolución de conflictos entre modelos