发布于 Wed Feb 04 2026 08:00:00 GMT+0800 (中国标准时间)
深度评测RAGFlowDify对比
RAGFlow vs Dify 知识库:用同一份复杂 PDF 对决
30 页含表格、双栏排版、扫描件的产品手册,分别用 RAGFlow 与 Dify 索引,看 Top-5 检索准确率与答案质量到底差多少。
测试材料#
一份真实的电子设备使用手册 PDF:
- 30 页
- 12 个表格(参数、对照、故障码)
- 6 页双栏排版
- 2 页扫描件(旧版手册补遗)
测试问题(30 道)#
- 「型号 X-200 的最大输出功率是多少?」(表格类)
- 「故障码 E04 怎么处理?」(表格类)
- 「在双栏部分提到的环境温度限制是多少?」(双栏布局类)
- 「附录 B 的扫描页讲了哪些安全规范?」(扫描件 OCR 类)
结果#
| 指标 | Dify 默认 | Dify 调优 | RAGFlow 默认 | RAGFlow 调优 |
|---|---|---|---|---|
| 表格类 Top-1 命中 | 6/12 | 9/12 | 11/12 | 12/12 |
| 双栏类 Top-1 命中 | 2/6 | 4/6 | 6/6 | 6/6 |
| 扫描件类 Top-1 命中 | 0/2 | 0/2 | 2/2 | 2/2 |
| 普通段落 Top-1 命中 | 9/10 | 10/10 | 9/10 | 10/10 |
| 综合 | 17/30 | 23/30 | 28/30 | 30/30 |
为什么 RAGFlow 在复杂文档上碾压#
- DeepDoc 解析:识别 PDF 的 layout(标题、段落、表格、图)后再切块,而不是按字数
- 表格保留结构:表头与单元格保留二维关系,检索表格类问题时整张表当一个 chunk
- 内置 OCR:扫描件自动 OCR 后参与索引
- 多路召回:向量 + BM25 + 知识图谱并行,结果融合
为什么 Dify 在普通段落上仍可比#
Dify 的优势在 API 一致性与生态——一旦文档没那么复杂,差距收窄。如果你的知识库 90% 是 Markdown / Notion 导出文档(没什么布局),Dify 完全够用且更轻。
选择建议#
| 你的文档主要是 | 推荐 |
|---|---|
| Markdown / Notion / 网页 | Dify |
| API 文档 / 简单 PDF | Dify |
| 含大量表格的产品手册 | RAGFlow |
| 扫描件 / 旧文档 | RAGFlow |
| 混合,且追求最高质量 | RAGFlow 做检索后端 + Dify 做应用层 |
组合架构(推荐生产)#
这种方式 Dify 负责应用编排与多 LLM 治理,RAGFlow 只做它最擅长的「复杂文档解析 + 多路召回」。