我在一个物流行业的朋友找到我,说他们客服团队每天要处理上千条重复性问题——“寄到广州几天”、“5公斤多少钱”、“能不能寄液体”。五个人轮班盯着企业微信,回复到手酸,客户还总抱怨响应太慢。他想让我帮忙看看,能不能用AI搞个东西,不贵、好用、别太折腾。

我当时手里正好在测试蓝耘的MaaS平台,他们的API兼容OpenAI格式,国内直连不用挂代理,延迟也低。模型方面,DeepSeek-V3.2和GLM-5.1都能在模型广场一键调用,中文理解和指令跟随能力对付客服场景绰绰有余。于是我说:行,给我一个周末。

最终选型是NextChat(原ChatGPT Next Web)挂蓝耘的DeepSeek模型做后端。以下是我完整的踩坑和落地记录。

目录

一、为什么是NextChat + 蓝耘

二、部署全貌

三、Windows环境下的Docker部署

3.1 安装Docker Desktop

3.2 拉镜像跑容器

3.3 初见界面

四、界面配置

4.1 API和模型设置

4.2 对话快捷键

五、落地:物流”数字客服”

5.1 提示词设计

5.2 实战效果

六、生产环境的进阶加固

6.1 Nginx反向代理 + HTTPS

6.2 访问密码

结语


一、为什么是NextChat + 蓝耘

市面上的AI Chat前端一抓一大把,但大部分要么太重(需要数据库、用户系统),要么太封闭(绑死某一家服务商)。NextChat刚好卡在中间:一个Docker容器就跑起来,界面干净,支持自定义API地址和模型列表,而且自带访问密码——对中小企业来说,这几个特性直接决定能不能落地。

后端选蓝耘有两个很实际的原因。第一,我对比了直接买一台带GPU的云服务器跑开源模型,A10显卡的实例一个月少说两千块,而蓝耘MaaS按token计费,DeepSeek-V3.2输入2元/百万token,输出3元/百万token。物流客服这种场景,平均一次对话也就三四百token,算下来一条完整对话不到一分钱。第二,蓝耘的API在国内直连几乎没延迟,我在广州的服务器上测,首token响应在600ms以内,跟直接调OpenAI官方API走代理的速度比,快了不止一倍——代理那层TLS握手就要多耗200-300ms。

二、部署全貌

整个部署我分了四个阶段:搭Docker环境 → 拉镜像跑容器 → 配API和模型 → 写提示词落地业务。下面按实际执行顺序展开。

三、Windows环境下的Docker部署

朋友的服务器是一台Windows Server 2022,跑着他公司的ERP和文件共享。好在NextChat不挑食,Docker Desktop就能搞定。

3.1 安装Docker Desktop

去Docker官网下载Docker Desktop for Windows,安装过程会提示启用WSL2。WSL2是微软给Windows加的Linux子系统,Docker的容器就运行在它上面。按提示重启一次,WSL2内核自动装好,不用额外折腾。

3.2 拉镜像跑容器

以管理员身份打开PowerShell,执行:

docker run -d `
  --name nextchat `
  -p 3000:3000 `
  -v nextchat-data:/app/public/data `
  -e OPENAI_API_KEY=your_lanyun_api_key `
  -e BASE_URL=https://maas-api.lanyun.net/v1 `
  -e CUSTOM_MODELS=deepseek-chat,qwen3-235b-a22b `
  ghcr.io/chatgptnextweb/chatgpt-next-web

几个关键参数说一下:

  • -v nextchat-data:/app/public/data:把对话记录挂到Docker数据卷里。这个太重要了——容器删了重建,聊天记录还在。我第一次没加这个参数,调试提示词时不小心删了容器,半天的心血全没了。
  • BASE_URL:指向蓝耘的MaaS接口地址。这里有个坑,有些旧教程写的是OpenAI官方地址,或者某些国内代理的地址,但蓝耘的https://maas-api.lanyun.net/v1直连延迟最低,我在广州服务器测平均响应时间在400-600ms,高峰期也没超过1秒。
  • CUSTOM_MODELS:只填自己用的模型,界面下拉菜单就不会显示一堆用不上的选项。我当时选了deepseek-chat和qwen3-235b-a22b,前者处理物流客服这种指令跟随型任务非常稳,后者在需要长文本总结时效果更好。
  • CODE:访问密码。这个在多人使用场景下是刚需,不然谁拿到URL都能随便调你的API,月底账单出来哭都来不及。

3.3 初见界面

浏览器打开http://localhost:3000,输入密码后,一个干净到有点”冷淡”的界面出现了——左侧是对话列表,右侧是聊天区,左下角一个齿轮图标。没有注册流程,没有广告,没有各种”升级会员”的按钮。这种克制在今天的AI产品里已经很难得了。

四、界面配置

4.1 API和模型设置

点左下角齿轮,进入设置:

  • API密钥:填入从蓝耘控制台创建的API Key。蓝耘的Key管理界面在”模型→API KEY管理”,点”创建API KEY”就行,不需要企业认证,个人注册就能用。我刚注册时账户里送了体验金,够跑好几天的测试流量。

  • 接口地址:https://maas-api.lanyun.net/v1
  • 模型选择:deepseek-chat

配好后随便发一句”你好”,看到秒回的那一刻,我心里就踏实了一半。

  • API 地址:坚定地指向 https://maas-api.lanyun.net/v1。蓝耘作为底座,保障了数据传输的低延迟与高稳定性。
  • 模型选择:在预设的列表中,选择蓝耘热门的 deepseek-chat 模型。它在中文理解、逻辑推理以及遵循指令方面有着极其出色的表现,且性价比极高,是本土化业务的不二之选。

4.2 对话快捷键

NextChat有两个隐藏快捷键非常实用:

  • Shift + Enter:换行。写长提示词的时候不用挤在一行里。
  • Ctrl + C或点”停止生成”:打断AI。调试阶段这个键我按了无数次——模型偶尔会顺着错误的思路一路狂奔,及时喊停比等它输出完再删要高效得多。

五、落地:物流”数字客服”

5.1 提示词设计

NextChat的系统提示词在左侧设置面板里。我花了一个下午打磨这份”岗位说明书”:

你是顺丰速运的智能客服助手”小丰”。你的日常是解答包装要求、禁寄物品、保价服务及运费估算。请保持友好、专业的语气,多用”您好”“请问”。遇到无法确定的理赔金额或具体时效,请主动引导用户拨打95338,绝不擅自承诺。

这个东西看着简单,实际调了好几版。最初版本我写得太笼统(“你是物流客服”),结果客户问”寄刀片可以吗”它直接说”可以的”,差点出事故。第二版加了禁寄物品约束,但又矫枉过正——什么都说”建议咨询95338”,变成复读机。最终版本找到了平衡:能答的答清楚,不能答的明确引导转人工,同时保持语气自然。

5.2 实战效果

朋友把NextChat接上他们客服系统的消息转发后,效果超出预期。我以”5公斤包裹寄广州几天”为例,模型的回复是这样的:

您好!很高兴为您服务。关于5公斤包裹寄往广州的时效:同城通常次日达;省内1-2天;跨省2-3天。温馨提示:实际时效受天气、交通等因素影响。请问您是从哪里寄出呢?如果能提供始发城市,我可以帮您进一步估算。另外,物品是否为易碎品?需要帮您安排保价或预约上门取件吗?

不需要查表、不需要翻知识库,模型自己就能理解这个场景需要同时回答时效和引导增值服务。蓝耘的DeepSeek-V3.2在中文指令跟随方面确实给力,提示词里写的”主动引导”它执行得很到位。

朋友反馈说,上了这个之后,客服团队从五个人减到两个人——剩下的两个人主要处理理赔和投诉这些硬骨头,日常查件、询价、包装咨询全部交给NextChat自动处理。他们粗略算了下,一个月省了大概一万五的人力成本。而我看了蓝耘后台的用量统计,一个月的API调用费才不到两百块。

这个成本对比让我自己也吓了一跳。之前我给另一个客户用云GPU跑开源模型做类似的事,一个月光显卡租赁就一千多,效果还不如蓝耘的API。

六、生产环境的进阶加固

6.1 Nginx反向代理 + HTTPS

直接http://IP:3000暴露是不行的。我在朋友服务器上加了Nginx反代,配上Let’s Encrypt的免费SSL证书:

  1. 安装Nginx,配置一个server块,监听443端口
  2. SSL证书用certbot自动申请和续期
  3. 把所有请求proxy_pass到http://localhost:3000
  4. 加上proxy_set_header传递真实IP

这样用户访问https://客服域名,实际流量路径是:浏览器→Nginx(SSL解密)→NextChat容器。外界永远看不到3000端口。

6.2 访问密码

前面Docker命令里的CODE参数就是访问密码。没密码的人打开页面只能看到一个输入框,输入正确才能进去。这对防止API Key被盗用至关重要——毕竟蓝耘的API调用是按量计费的,被别人薅了羊毛月底只能自己买单。

结语

NextChat + 蓝耘MaaS这套组合,我前前后后加起来花了不到两天时间搞完(包括反复调提示词)。跑了一个多月下来,最直观的感受是:蓝耘API的稳定性比我预期的好。高频调用场景下没遇到过一次超时或限流,DeepSeek-V3.2在中文客服场景的表现也够用。

很多人以为搞AI必须有大厂的研发团队和算力预算,其实不是。Docker一行命令、一个懂业务的提示词、一套便宜的API,就能在真实的业务场景里跑出效果。技术本身是工具,怎么用、用在什么地方,才是决定它价值的关键。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐