Entity Enricher convierte dos tipos de conocimiento en datos estructurados y validados: lo que los modelos de lenguaje grande ya saben y lo que permanece sin leer en sus propios archivos: documentos PDF, imágenes, grabaciones de audio, archivos de oficina. Cada objeto extraído recibe una identidad semántica estable, de modo que los enriquecimientos se acumulan formando un sistema de información coherente en lugar de un montón de resultados aislados.
Piense en los LLM como conocimiento humano destilado: miles de millones de documentos, bases de datos y páginas web comprimidos en redes neuronales consultables. Entity Enricher ofrece la interfaz para extraer este conocimiento en un formato estructurado y fiable que se ajusta a su modelo de datos. Y como los modelos modernos también pueden leer PDF, ver imágenes y escuchar audio, la misma interfaz extrae estructura de su propio contenido: los contratos, informes, escaneos y grabaciones que su empresa ha acumulado durante años.
Cada enriquecimiento se basa en una o ambas de estas fuentes. Se complementan entre sí: el modelo aporta conocimiento del mundo y razonamiento; sus documentos aportan los datos que solo existen dentro de su organización.
Datos públicos sobre empresas, medicamentos, lugares, productos, regulaciones: cualquier cosa que el modelo haya aprendido durante el entrenamiento. Proporciónele un identificador (un nombre, un sitio web) y un esquema, y completará el resto: sector, año de fundación, sede, mecanismos de acción. No se requiere ningún documento.
El conocimiento que nunca llegó a una base de datos: contratos, facturas, informes de inspección, formularios escaneados, fotos de productos, llamadas grabadas. Adjúntelos a un enriquecimiento y el modelo extrae los campos de su esquema directamente de su contenido, sin OCR, transcripción ni copiar y pegar manuales.
Consulte Attachments de documentos para conocer los formatos y modos de entrega compatibles.
Un esquema no es solo una estructura de datos: es una pregunta formalizada que le plantea al conocimiento colectivo de la humanidad, o a un documento específico. Cuando define un esquema con propiedades como companyName, industry y headquarters, en esencia está preguntando: «Dado un identificador de empresa, indícame su nombre, en qué sector opera y dónde tiene su sede.»
| Concepto de esquema | Propósito |
|---|---|
| Propiedades | Los datos concretos que desea extraer |
| Tipos | El formato que espera (cadena, número, objeto, array) |
| Dominios de expertise | Qué especialista debe responder (farmacéutico, financiero, geográfico) |
| Claves de búsqueda | Identificadores que ayudan a localizar la entidad en la base de conocimiento |
| ID semántico | Una identidad estable y limitada a la organización para que el mismo objeto del mundo real se reconozca en los enriquecimientos y en sus demás sistemas |
| Conservar | Campos que se transfieren sin cambios desde su entrada |
| Multilingüe | Campos entregados en todos los idiomas en los que opera: una función de primer nivel, no un paso de traducción añadido |
Los grandes modelos de lenguaje representan un nuevo tipo de base de conocimiento. A diferencia de las bases de datos tradicionales, que devuelven coincidencias exactas de los registros almacenados, los LLM comprenden el contexto, razonan sobre datos incompletos y generalizan a partir de patrones. Y ya no son solo texto: los modelos con capacidad de visión leen imágenes y páginas escaneadas, los modelos con capacidad de PDF procesan documentos completos y los modelos con capacidad de audio escuchan grabaciones.
Entity Enricher trata a varios LLM como distintas perspectivas de conocimiento. Cada proveedor aporta sus propias fortalezas: Claude destaca en el razonamiento matizado, GPT-4 tiene un conocimiento amplio, Gemini ofrece profundidad multilingüe y los modelos locales de Ollama mantienen sus datos privados.
Ejecutar el mismo enriquecimiento en varios proveedores le permite comparar respuestas para evaluar la confianza, agregar el consenso de varios expertos y equilibrar coste y calidad. Obtenga más información en Multi-Model Enrichment.
El enriquecimiento es el proceso de identificar la entidad mediante claves de búsqueda, recuperar conocimiento relevante del LLM y de cualquier documento adjunto, estructurar la respuesta según su esquema, validar que la salida coincide con los tipos esperados, preservar sus datos originales donde se especifique y, por último, resolver la identidad —asignando a cada objeto su ID semántico estable.
{ "name": "Novartis", "website": "novartis.com" }{ "name": "Novartis", "industry": "Pharmaceutical", "foundedYear": 1996, "semantic_id": "cpt_abc123" }Cada enriquecimiento es independiente. Pregunte dos veces y la misma cosa del mundo real puede describirse de forma distinta: «Acme Inc.» un día, «Acme Incorporated» al siguiente; un efecto secundario de un medicamento como «Headache», «Céphalée» o «Cephalalgia» según el idioma o el modelo. Para realmente construir sobre datos enriquecidos, necesita un identificador estable para la misma entidad.
Un ID semántico es un identificador con alcance de organización que Entity Enricher asigna a un objeto a partir de sus campos clave, emparejado por significado, no por la ortografía exacta. La misma entidad se resuelve al mismo ID en todos los enriquecimientos, modelos, idiomas y a lo largo del tiempo. Se asigna automáticamente después de que se ejecuta el modelo —nunca lo inventa el LLM— y puede residir en cualquier objeto: toda la entidad, un objeto anidado o cada elemento de una lista.
cpt_abc123Esto es lo que convierte un flujo de enriquecimientos en un sistema de información que puede ampliar y consultar:
| Usar | Qué permite |
|---|---|
| Clave de unión | Una clave estable para cotejar los registros enriquecidos con su almacén de datos, CRM o sistema de datos maestros |
| Deduplicación | Contraer los casi duplicados generados en distintos lotes, modelos o años de documentos en una sola identidad |
| Reconciliación | Vuelva a proporcionar un ID semántico conocido y los nuevos datos se adjuntarán a la entidad que ya sigue, en lugar de crear una nueva |
| Grafo de conocimiento | Los objetos referenciados desde varios registros convergen en un solo nodo: las relaciones se vuelven consultables |
Cómo funciona la resolución (caché de coincidencia exacta, embeddings, umbrales de similitud) se explica en IDs semánticos.
La mayoría de las empresas se asientan sobre un archivo que nunca se estructuró: unidades compartidas de contratos e informes, papel escaneado, adjuntos de correo, reuniones grabadas. Ese archivo es una base de datos: simplemente nunca se le dieron filas y columnas. Combinar adjuntos (documentos como fuente de conocimiento), enriquecimiento por lotes (procesamiento paralelo) e IDs semánticos (deduplicación en todo el corpus) la convierte en una.
Consulte Enrichment por batch para ver el flujo de trabajo en detalle.
El conocimiento estructurado no reside únicamente en el texto. Entity Enricher admite los formatos que su archivo realmente contiene y dirige cada uno a modelos capaces de leerlo.
Dos modos de entrega hacen esto posible. En el modo binario, los bytes originales se envían al modelo, de modo que no se pierde nada en la conversión: el diseño de una tabla, el detalle de una foto, las palabras de un ponente. En el modo de texto en línea, el texto se extrae una vez durante la carga y se incorpora a cada prompt, lo que funciona con cualquier modelo independientemente de sus capacidades.
El enrutamiento según las capacidades significa que un archivo solo llega a los modelos que realmente pueden procesarlo: se le avisa antes de que empiece un enriquecimiento, no después de que falle. Los formatos y modos se detallan en Adjuntos de documentos.
No todo el conocimiento es igual. Una pregunta sobre mecanismos de fármacos requiere una expertise distinta a una pregunta sobre estructura corporativa. Los expertise domains dirigen las propiedades del schema al especialista adecuado dentro del LLM, activando los patrones de conocimiento relevantes para cada domain.
Cuando se utiliza la estrategia multi-expertise domain, cada dominio recibe su propia llamada al LLM enfocada, con solo las propiedades relevantes del schema, lo que mejora significativamente la calidad de la salida.
Los LLM pueden cometer errores. Entity Enricher implementa varias capas de control de calidad para detectar y corregir errores automáticamente:
Las claves de búsqueda evitan que el LLM alucine sobre la entidad equivocada. Cumplen dos funciones:
El prompt de enriquecimiento subraya: «Está enriqueciendo esta entidad específica identificada por estas claves de búsqueda.»
Las claves de búsqueda y los IDs semánticos son dos caras de la identidad: las claves de búsqueda ayudan al LLM a encontrar la entidad correcta durante el enrichment; los IDs semánticos le dan una identidad persistente en la que sus sistemas se apoyan después del enrichment.
Antes de que comience el enriquecimiento, un paso opcional de clasificación previa puede verificar que la entidad realmente coincida con el tipo de esquema. Esto evita alucinaciones cuando las entidades no coinciden — por ejemplo, enriquecer «Titán» con un esquema de «Planeta» cuando Titán es en realidad una luna.
Las llamadas al LLM tienen costes. Entity Enricher realiza el seguimiento del uso de tokens, el coste por proveedor, el coste por enriquecimiento y el gasto por organización. Esto permite supervisar presupuestos, comparar proveedores (coste frente a calidad) y tomar decisiones de optimización, como usar modelos más económicos para campos simples, lo cual resulta especialmente relevante al procesar un archivo de miles de documentos.
| Componente | Rol conceptual |
|---|---|
| Esquema | La pregunta que está haciendo |
| Proveedores de LLM | Diferentes perspectivas de conocimiento |
| Adjuntos | Sus archivos como fuente de conocimiento (PDF, imagen, audio, office) |
| Claves de búsqueda | Anclas de identidad de entidad durante el enriquecimiento |
| IDs semánticos | Identidad estable tras el enriquecimiento: la columna vertebral de su sistema de información |
| Dominios de expertise | Enrutamiento a especialistas |
| Estrategias | Cómo orquestar las llamadas al LLM |
| Procesamiento por lotes | Enriquecimiento en paralelo a escala de archivo |
| Multilingüe | El mismo dato en cada idioma en el que opera |
| Validación | Aseguramiento de la calidad |
| Conservar | Protección de la integridad de los datos |