2.8 万行遗留系统重构实战 | Claude Code / Cursor / Copilot 横向对比

最近AI Coding工具圈子直接打起来了。

Microsoft开始大规模取消Claude Code授权,把内 部开发者往Copilot CLI上推(5月14日左右The Verge等媒体报道);几乎同时OpenAI Codex SuperApp发力,xAI Grok Build也正式入场早期测试,Anthropic则通过提升使用限额和合作伙伴计划回应。

我带队做企业级Agent落地和AI测试,代码相关任务占团队工作60%以上。看到这些消息后,周末干脆把主流工具栈拉出来又重测了一次。过去半年我们一直在推Agentic workflow,以前靠重提示词+简单RAG,现在玩法彻底变了。

实测任务:2.8万行Java遗留系统重构

挑了个老大难:2.8万行Java Spring Boot服务,跨6个微服务,老JPA+手写缓存。要求改成支持Agentic payment抽象、temporal memory、guardrails,加上完整测试覆盖和迁移报告。

第一轮:Cursor 3.1 + Composer(近期版本)

完整repo + AGENTS.md喂进去,并行Agent模式跑。交互花了45分钟左右,Sonnet和Opus切换。完成度70%,但payment层硬编码USDC,guardrails跟业务逻辑冲突,observability缺核心metric。总Token烧到120万,后续我手动修了2.5小时。

典型问题片段——Cursor输出常见局部最优:j

@Service
public class PaymentService {
    public void processPayment(Order order) {
        stripeService.charge(order.getAmount(), "USDC");  // 硬编码麻烦
        cache.put(order.getId(), result);
    }
}

跨服务一致性容易崩,需要我持续喂提示纠偏。

第二轮:Claude Code(Opus 4.7 + Dreaming preview)

同一任务,扔repo和AGENTS.md,先plan。Dreaming开启后,它在子任务间暂停自我review,找pattern和潜在bug。有效交互只18分钟。payment抽象用了provider factory,guardrails和temporal memory干净,observability也补全。总Token仅4.2万,人工只花40分钟验证边缘case,质量高一个明显档次。

Claude改进后的代码片段:

@Component
public class AgenticPaymentService implements PaymentGateway {
    private final PaymentProviderFactory factory;
    private final GuardrailService guardrails;
    private final TemporalMemory memory;

    @Override
    public PaymentResult process(PaymentRequest req) {
        guardrails.validate(req);
        PaymentProvider provider = factory.getProvider(req.getCurrency());
        PaymentResult result = provider.charge(req);
        
        memory.store("payment_ctx", req.getOrderId(), result);
        observability.recordMetrics(result);
        return result;
    }
}

第三轮:Copilot也顺手测了

inline和小重构依然最丝滑,但这种跨服务+Agentic语义的任务就明显吃力——需要手动切多个chat,上下文全靠人管,尤其在Microsoft自己内部都开始调整策略的背景下。

我的核心观点很明确:提示词工程在真正Agentic Coding时代正在快速过时。

以前80%精力花在写完美prompt,现在更重要的是给Agent搭好“操作系统”——清晰AGENTS.md、repo结构、工具暴露、fee dback loop。Dreaming把反思环节直接工程化,让Agent自己补prompt短板。

结合当前coding agent大战(Microsoft、OpenAI、xAI都在推),未来知识库不再是静态的,而是会自我编译、发现矛盾、生成连接的活系统。

我当前的实战栈:

Claude Code主力扛复杂Agent任务 + Cursor辅助日常编辑 + Copilot保留在轻量流水线和团队协作场景。传统RAG在长上下文+自我迭代Agent面前被大幅削弱,但带critic、reflection、graph memory的Agentic RAG成了生产必备。

当然,清醒的代价也要说

Dreaming还在preview,pattern提取偶尔不稳,极端edge case还是需要人兜底;企业大规模使用时,授权和成本(Microsoft的动作已经说明问题)也是真实痛点。

但大方向不会错——2026 coding工具的胜负手,从“谁模型强”转向“谁把规划-执行-验证-自我进化闭环做得更好、成本更可控”。

文末讨论:

你们团队现在主力用哪个coding Agent?面对Microsoft取消Claude Code授权这类变动,选型策略有调整吗?

在Agentic Coding里,你觉得提示词工程还有多大生存空间?或者传统RAG该怎么进化?欢迎评论区分享真实踩坑案例和生产实践。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐