很多小伙伴部署完 OpenClaw(小龙虾)后,都会遇到同款问题:对话越用越卡、Token 消耗飞快、低配置 VPS 频繁超时、多会话并发直接崩端。大部分故障并非部署问题,而是默认参数适配性差——官方默认配置偏向通用场景,没有针对个人自托管、低配置服务器、日常办公等细分场景做精细化调优。

今天这篇博客,结合实战踩坑经验,拆解小龙虾核心可调参数,分享一套低耗、稳定、高速的优化方案,覆盖内存控制、上下文管理、Token 节流、并发调度、模型适配五大核心场景,新手直接抄配置,老手可按需精细化微调。

一、先搞懂:小龙虾卡顿、耗Token的核心根源

在调参之前,先明确问题本质,避免盲目修改参数导致效果反向翻车:

  • 内存溢出/响应迟缓:Node 运行时无内存限制,默认占用过高,低配置服务器内存被占满后触发卡顿、闪退

  • Token 消耗超标:上下文无上限、单次生成 Token 过大、技能文档冗余,每轮对话都会携带无效历史内容

  • 推理超时失效:未开启流式响应、超时时间过短,长任务直接中断失败

  • 多会话崩溃:无并发限制,多用户/多任务同时运行,资源抢占导致服务宕机

  • 模型适配错乱:高低模型混用,简单任务调用大模型,造成算力与成本浪费

所有优化逻辑,都围绕「限制无效消耗、精准分配资源、适配场景需求」展开,全程不改动源码,仅修改配置参数,零风险、可随时回滚。

二、核心参数拆解:逐字段讲解优化逻辑

小龙虾的核心优化参数集中在运行时、对话上下文、模型推理、压缩调度四大模块,下面逐个拆解参数作用、默认弊端、最优取值逻辑。

1. Runtime 运行时内存参数(解决卡顿、闪退)

该参数用于限制 Node 运行内存,是低配置 VPS 最核心的优化项,512M/1G 轻量服务器必调。

核心参数:max-old-space-size

默认无限制,会直接拉满服务器内存,导致后续请求阻塞、服务假死。

优化取值参考:

  • 512M 入门 VPS:设置 256M,预留系统基础运行内存

  • 1G 服务器:设置 512M,兼顾稳定性与运行效率

  • 2G+ 服务器:设置 1024M,保障多任务运行流畅度

2. Conversation 对话上下文参数(解决Token超标、对话变笨)

上下文是 Token 消耗的核心元凶,历史对话过多会导致模型推理变慢、理解偏差,同时大幅增加计费成本。

参数1:maxHistory 最大历史轮数

默认无上限,对话越多,每轮携带的冗余内容越多。日常对话场景建议设置为 8-12 轮,足够支撑连贯对话,同时杜绝无效累积。

参数2:maxTokens 单次生成上限

默认数值偏大,长文本生成极易超时、耗 Token。日常问答设为 300-512,文案创作、代码场景设为 1024,按需节流。

参数3:contextTokens 上下文总阈值

控制单次对话总上下文 Token 容量,通用场景设置 30000,低配置设备可降至 15000,平衡对话连贯性与资源消耗。

3. 上下文压缩参数(进阶提效)

小龙虾自带上下文无损压缩能力,默认关闭自动压缩,长对话场景体验极差。

核心参数:compaction.mode

建议设置为 auto 自动模式,当上下文接近阈值时,自动精简冗余对话、保留核心信息,无需手动操作。同时可搭配指令手动优化:/status 查看上下文大小,超过 100K 执行 /compact 手动压缩,快速恢复响应速度。

4. 模型与流式响应参数(解决超时、响应慢)

参数1:streaming 流式响应

默认关闭,会等待全部内容生成完毕再输出,长任务极易超时。强制开启 true,实时分段输出内容,大幅降低超时概率,提升交互体验。

参数2:模型主次适配

避免单一模型适配所有场景,主模型用性价比模型支撑日常任务,备用模型兜底复杂推理,杜绝大模型滥用浪费。

5. 并发与超时调度参数(解决多会话崩溃)

个人自托管场景无需超高并发,限制最大会话数、超时时间,可避免资源被无效占用。

核心优化:设置单服务最大并发会话、任务超时自动终止,闲置会话自动释放资源,防止后台堆积无效进程。

三、分场景完整配置模板(直接复制即用)

针对不同部署环境,整理两套开箱即用的最优配置,覆盖绝大多数个人、小型团队场景。

场景一:低配置 VPS(512M-1G 内存,个人自用)

极致节流、稳定优先,彻底解决卡顿、闪退、超时问题

{ "runtime": 
{ "nodeOptions": "--max-old-space-size=256" }, 
  "conversation": { "maxHistory": 8, "maxTokens": 512, "contextTokens": 15000 }, 
  "agents": { "defaults": 
{ "streaming": true, 
  "compaction": { "mode": "auto", 
  "threshold": 0.8 } 
} 
}, 
"schedule": { "maxConcurrent": 2, "timeout": 120000 } 
}

场景二:标准服务器(2G+ 内存,多会话/轻度团队使用)

平衡性能与成本,兼顾流畅度和对话质量

{"runtime": { "nodeOptions": "--max-old-space-size=1024" }, 
"conversation": { "maxHistory": 12, "maxTokens": 1024, 
"contextTokens": 30000 }, 
"agents": { "defaults": 
{"model": { "primary": "qwen-7b-chat", 
"fallback": "claude-haiku-3-5" }, 
"streaming": true,
"compaction": { "mode": "auto", "threshold": 0.85 } } }, 
"schedule": { "maxConcurrent": 5, "timeout": 180000 } }

四、额外优化:技能文档与Token节流避坑

很多人调完核心参数依旧耗 Token,问题出在 技能配置文件冗余。SKILL.md 文件内容会作为系统提示词每轮携带,文件越臃肿,无效 Token 消耗越多。

  • 精简技能文档:删除冗余描述、重复规则,只保留核心执行逻辑

  • 按需启用技能:关闭不常用工具,减少模型工具调用判断开销

  • 任务分级处理:简单问答、文本整理用轻量模型,复杂推理、代码开发再用高阶模型

五、常见问题排查&优化总结

1. 高频问题快速解决

  • 对话越用越卡:开启自动压缩 + 调低 maxHistory + 定期执行 /compact 指令

  • 频繁超时报错:开启 streaming 流式响应,延长任务超时时间

  • 内存占用过高:限制 runtime 内存,降低并发会话数

  • Token 消耗过快:精简上下文、压缩技能文档、分级使用模型

2. 优化核心总结

小龙虾(OpenClaw)的参数优化,核心不是追求极致参数,而是场景适配:低配机器重「节流稳运行」,高配机器重「平衡提效」。无需复杂部署改造,仅通过内存限制、上下文管控、流式开启、自动压缩、并发约束五大调优手段,就能解决 99% 的卡顿、超时、高耗 Token 问题。

后续我会持续更新小龙虾高阶调优教程,包含沙箱安全配置、自定义技能参数微调、多模型负载均衡等实战内容,需要的小伙伴可以持续关注!

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐