flag92 flag92
博客
发布于 Wed Feb 18 2026 08:00:00 GMT+0800 (中国标准时间)
深度评测本地推理Open WebUIOllama

全本地 AI 客服落地:Open WebUI + Ollama + Qwen 一台 GPU 服务器

数据不出网的硬要求下,单台 A100 服务器跑全套 AI 客服可行吗?硬件、模型、知识库、对外开放全流程。

适用场景#

  • 金融 / 医疗 / 政企(数据完全不出网)
  • 已采购 GPU 想发挥价值
  • 想验证本地模型与云端的真实差距

硬件清单#

场景配置月成本(云租赁)
< 100 并发,小知识库1 × A10 24GB + 8C32G CPU~$700
< 500 并发,中知识库1 × A100 40GB + 16C64G~$1500
大型企业,需要 70B2 × A100 80GB + 32C128G~$4000

软件栈#

Open WebUI
聊天前端 + 多用户 + Pipelines

Ollama 本地推理

Qwen 2.5-14B-Instruct

知识库
AnythingLLM 或 RAGFlow

本地 bge-m3 Embedding

Pipelines
Python 中间件

本地 ERP / 工单系统

关键步骤#

1. Ollama + Qwen#

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉模型(14B 量化版本)
ollama pull qwen2.5:14b-instruct-q4_K_M

# 测试
ollama run qwen2.5:14b-instruct-q4_K_M "你好"

2. Open WebUI#

docker run -d --name openwebui \
  -p 3000:8080 \
  -v openwebui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

3. 本地 Embedding#

不要图省事用 OpenAI 接口——一旦数据出网整套合规就废了。本地装 text-embeddings-inference

docker run -d --name tei \
  --gpus all -p 8080:80 \
  -v $PWD/tei-data:/data \
  ghcr.io/huggingface/text-embeddings-inference:1.5 \
  --model-id BAAI/bge-m3

在 Open WebUI 配 embedding endpoint 指向 http://host.docker.internal:8080

4. Pipelines 接业务#

Pipelines 是 Open WebUI 的「中间件」,可以写 Python 逻辑:

# 当用户问到订单类问题,自动调用 ERP
class Pipeline:
    def __init__(self):
        self.name = "Order Lookup"

    def pipe(self, body, user, **kwargs):
        msg = body['messages'][-1]['content']
        if '订单' in msg:
            # 提取订单号、调用本地 ERP API
            order = lookup_local_erp(msg)
            body['messages'].append({
                'role': 'system',
                'content': f'订单信息:{order}'
            })
        return body

5. 对外开放(受控)#

千万不要把 Open WebUI 直接暴露公网。做法:

  • 内网 only,员工通过 VPN 访问
  • 外部客户:Open WebUI → 反向代理 → 加身份验证 → 仅暴露聊天 API
  • 用 Chatwoot 当公网入口,Open WebUI 作为后端通过 Agent Bot 调用

实测性能#

指标数值
首 token 延迟800-1200ms
tokens/秒45-60(Qwen 14B q4 on A100)
RAG 检索55ms
端到端首响约 1.5 秒
并发上限约 80 并发

与云端对比#

维度本地 Qwen 14B云端 Qwen 72B
准确率4.04.4
首响延迟1500ms800ms
月成本(5000 会话)$700-1500$50-150
数据合规✗ for some

结论:本地推理的唯一理由是合规。成本上云端碾压本地(除非你已有 GPU 沉没成本)。

站内搜索

按 ⌘ K 随时唤起