flag92 flag92
博客
发布于 Wed Feb 04 2026 08:00:00 GMT+0800 (中国标准时间)
深度评测RAGFlowDify对比

RAGFlow vs Dify 知识库:用同一份复杂 PDF 对决

30 页含表格、双栏排版、扫描件的产品手册,分别用 RAGFlow 与 Dify 索引,看 Top-5 检索准确率与答案质量到底差多少。

测试材料#

一份真实的电子设备使用手册 PDF:

  • 30 页
  • 12 个表格(参数、对照、故障码)
  • 6 页双栏排版
  • 2 页扫描件(旧版手册补遗)

测试问题(30 道)#

  • 「型号 X-200 的最大输出功率是多少?」(表格类)
  • 「故障码 E04 怎么处理?」(表格类)
  • 「在双栏部分提到的环境温度限制是多少?」(双栏布局类)
  • 「附录 B 的扫描页讲了哪些安全规范?」(扫描件 OCR 类)

结果#

指标Dify 默认Dify 调优RAGFlow 默认RAGFlow 调优
表格类 Top-1 命中6/129/1211/1212/12
双栏类 Top-1 命中2/64/66/66/6
扫描件类 Top-1 命中0/20/22/22/2
普通段落 Top-1 命中9/1010/109/1010/10
综合17/3023/3028/3030/30

为什么 RAGFlow 在复杂文档上碾压#

  1. DeepDoc 解析:识别 PDF 的 layout(标题、段落、表格、图)后再切块,而不是按字数
  2. 表格保留结构:表头与单元格保留二维关系,检索表格类问题时整张表当一个 chunk
  3. 内置 OCR:扫描件自动 OCR 后参与索引
  4. 多路召回:向量 + BM25 + 知识图谱并行,结果融合

为什么 Dify 在普通段落上仍可比#

Dify 的优势在 API 一致性与生态——一旦文档没那么复杂,差距收窄。如果你的知识库 90% 是 Markdown / Notion 导出文档(没什么布局),Dify 完全够用且更轻。

选择建议#

你的文档主要是推荐
Markdown / Notion / 网页Dify
API 文档 / 简单 PDFDify
含大量表格的产品手册RAGFlow
扫描件 / 旧文档RAGFlow
混合,且追求最高质量RAGFlow 做检索后端 + Dify 做应用层

组合架构(推荐生产)#

HTTP 调用

用户问题

Dify Workflow

RAGFlow Retrieval API
只用检索能力

Dify LLM 节点
生成答案

返回 Chatwoot

这种方式 Dify 负责应用编排与多 LLM 治理,RAGFlow 只做它最擅长的「复杂文档解析 + 多路召回」。

站内搜索

按 ⌘ K 随时唤起