发布于 Fri May 08 2026 08:00:00 GMT+0800 (中国标准时间)
评测LLM模型选型
2026 中文客服 LLM 横评:Qwen、DeepSeek、GLM、Doubao、文心
在同一套客服 Prompt + 知识库下,五家国产大模型谁更适合做 AI 客服?跑 200 道真实客服题给你结论。
测试设置#
- 题库:200 道真实电商 + SaaS 客服问题
- Prompt:固定一份「客服 Prompt 模板」(含角色、风格、约束)
- 知识库:3000 条 FAQ,统一用 bge-m3 检索
- 评分:1-5 分,由两名标注员独立打分,取均值
参评模型#
| 模型 | 版本 | 价格 (Input/Output per 1M tokens) |
|---|---|---|
Qwen2.5-72B-Instruct | 2.5 | ¥4 / ¥12 |
DeepSeek-V3 | V3 2026.02 | ¥1 / ¥2 |
GLM-4.5 | 4.5 | ¥2 / ¥6 |
Doubao-1.5-pro | 1.5-pro | ¥0.8 / ¥2 |
ERNIE-4.5 | 4.5 | ¥4 / ¥16 |
综合得分#
| 模型 | 正确性 | 准确遵循 Prompt | 风格自然度 | 速度 | 综合 |
|---|---|---|---|---|---|
| Qwen2.5-72B | 4.5 | 4.6 | 4.4 | 3.8 | 4.4 |
| DeepSeek-V3 | 4.4 | 4.5 | 4.3 | 3.5 | 4.3 |
| GLM-4.5 | 4.2 | 4.3 | 4.4 | 4.0 | 4.2 |
| Doubao-1.5-pro | 4.0 | 4.2 | 4.3 | 4.5 | 4.2 |
| ERNIE-4.5 | 4.1 | 4.0 | 4.0 | 3.6 | 3.9 |
选型建议#
| 你的优先项 | 推荐 |
|---|---|
| 准确率最高 | Qwen2.5-72B |
| 成本最低 | Doubao-1.5-pro |
| 速度优先(实时聊天) | Doubao 或 GLM |
| 严格遵循复杂 Prompt | Qwen 或 DeepSeek |
| 国内合规备案最稳 | 文心或豆包(背靠百度 / 字节) |
实测发现#
Qwen 的优势#
- 长对话上下文保留好(10 轮后仍能记得用户身份)
- 工具调用稳定(function calling 几乎不漏)
- 对中文专业术语理解准
DeepSeek 的性价比#
价格只有 Qwen 的 1/4,准确率落后约 0.1 分——绝大多数客服场景下这是赚的。
Doubao 的速度#
首 token 延迟约 300ms(Qwen 800ms+),实时聊天体验明显更顺滑。
不推荐用本地小模型直接做客服#
7B-14B 的本地模型在严格 Prompt 遵循、知识库引用、风格一致性上都明显不如云端 70B+。本地推理更适合「兜底 + 合规」场景,不是首选。