Entity Enricher 与 LlamaExtract——功能对比

Entity Enricher 与 LlamaExtract 对比

LlamaExtract(来自 LlamaIndex)借助一流的解析器,依据自定义 schema 从你提供的文档中提取结构化数据。Entity Enricher 的做法正相反:它借助全球最优秀的 LLM——以及实时网络搜索和你的文档——来富集实体,然后在多个模型间交叉核对每个字段并解决冲突。二者都做到了“输入 schema、输出结构化 JSON”,但解决的是问题中的不同部分。

主要差异一览

富集与提取对比

Entity Enricher

利用 LLM 知识、网络以及你的文档作为来源,回答你的数据中不包含的内容。

LlamaExtract

提取您上传的文档中已写明的内容。不使用外部知识或网络查询。

多模型 vs 单次处理

Entity Enricher

并行运行 2 个以上 LLM,并对字段级分歧进行仲裁,同时记录推理过程。

LlamaExtract

每个文档单次提取过程。无跨模型验证或仲裁。

内置标识 vs 按文档标识

Entity Enricher

语义 ID 为每个实体提供稳定的关联键,可跨运行、跨模型、跨语言去重。

LlamaExtract

输出的范围限定于您从中提取的文档;跨文档的身份识别需由您自行处理。

互补而非互斥

Entity Enricher

Entity Enricher 已原生支持摄取 PDF、Office 文件和图像,并可将解析器的输出作为输入。

LlamaExtract

一个出色的上游解析器。用它来预处理困难的文档,然后在 Entity Enricher 中扩充结果。

功能详细对比

功能Entity EnricherLlamaExtract
自定义输出 schema
从文档中进行结构化提取
从 LLM 的世界知识中富化
将实时网络搜索作为数据源
多模型扇出(2 个以上 LLM 并行)
字段级融合与冲突解决
仲裁审计追踪
语义 ID(标识 / 去重)
预检 entity classification
多语言输出(40 种语言)
批处理与流式进度
自带密钥 / 自托管模型部分
REST API + MCP + n8n / Make 界面API + SDK
一流的文档解析内置
定价模式按 token 计费(BYOK)每页 / credit

何时选择各个工具

在以下情况选择 Entity Enricher:

  • -答案不在文档中——你需要 LLM 知识或实时网络数据
  • -准确性需要多个模型交叉核对每个字段
  • -您需要一份审计记录,说明为何选择每个值
  • -跨运行和语言的去重/身份识别很重要
  • -您希望通过一次调用获得 40 种语言的输出
  • -您不想自行将解析、enrichment 和去重拼接在一起

在以下情况选择 LlamaExtract:

  • -你所需的一切都已在源文档之中
  • -您希望页面级提取能够关联回原始版式
  • -一流的复杂 PDF 解析是核心需求
  • -您已经在 LlamaIndex 技术栈上进行构建
  • -单模型提取过程的准确度已足够
  • -你不需要多 model arbitration 或身份解析

定价对比

Entity Enricher

按 token 计费

自带 LLM API 密钥,直接向您的提供商支付所消耗的 token。文档摄取功能已内置,因此大多数文件无需单独的解析费用。

  • - 典型富集:每个实体 $0.001-0.05
  • - 多模型(3 家提供商):每个实体 $0.003-0.15
  • - 提供自托管选项

LlamaExtract

每页 / credit

按解析和提取的页数计费,采用 LlamaCloud credit 分级(提供免费额度供起步)。成本随文档量和页数而非 entity 数量增长。

  • - 提供免费套餐供评估
  • - 基于积分,按处理页数计费
  • - 更高级别套餐提供大批量与 SLA 保障

定价反映公开发布的分级,可能会发生变化——请向各供应商确认当前费率。

超越文档所述的内容。

解析文档并基于模型知识和网络进行 enrichment——多模型 arbitration、审计追踪和 semantic ID 身份识别,全部集成于一条流水线。

免费开始使用