在这里插入图片描述

一句话总结:AgentBench 用 8 个真实环境、测试 25 个模型,首次用数据证明——会聊天 ≠ 会做事,GPT-4 一骑绝尘,大部分开源模型连 1 分都拿不到。


论文信息

字段 内容
论文标题 AgentBench: Evaluating LLMs as Agents
机构 清华大学 KEG 数据挖掘团队
arXiv 2308.03688
发表 ICLR 2024
GitHub github.com/THUDM/AgentBench

一、背景:为什么需要 AgentBench?

大语言模型(LLM)在问答、推理、代码生成上表现越来越好,但真正的 Agent 场景——在复杂环境中自主完成多步任务——却从未有过系统性的评测框架。

AgentBench 的出现填补了这个空白。它不是一道单选题,而是8 个真实"考场",让 25 个主流大模型接受全面测试。


二、核心方法论:8 环境 × 3 分类

AgentBench 将评测环境分为三大类,共 8 个环境:

2.1 代码环境(Code-Grounded)— 操作真实系统

环境 任务描述 核心考察
操作系统 (OS) 在 Ubuntu Docker 中执行文件操作、用户管理 命令行操作、系统理解
数据库 (DB) 通过 SQL 操作多表数据库 SQL 生成、数据推理
知识图谱 (KG) 查询 Freebase 知识图谱 规划、工具使用

2.2 游戏环境(Game-Based)— 策略与推理

环境 任务描述 核心考察
卡牌游戏 (DCG) Aquawar 回合制策略卡牌(清华自研) 策略制定、动态调整
横向思维 (LTP) 海龟汤式问答推理 发散思维、创造性推理
家庭环境 (ALF) 在模拟家中找东西、搬东西(基于 AlfWorld) 常识规划执行

2.3 网络环境(Web-Based)— 在线交互

环境 任务描述 核心考察
网络购物 (WS) 在模拟电商搜索购买商品 搜索决策、信息筛选
网页浏览 (M2W) 在真实网站执行复杂操作 网页理解、操作规划

设计哲学:5 个新建环境 + 3 个重新编译的经典环境,覆盖"代码 → 游戏 → 网络"三层递进。


三、25 个模型的测试结果

3.1 完整排名(部分)

排名 模型 总评分 OS DB KG DCG LTP ALF WS M2W
1 GPT-4 4.41 36.83 33.75 21.50 0.01 7.67 8.05 8.62 2.60
2 Claude 2.77 13.21 16.83 6.23 0.01 0.45 2.05 9.32 1.00
3 GPT-3.5-turbo 2.55 32.61 5.02 7.23 0.00 0.05 2.05 9.32 1.00
8 chatglm2(最佳开源) 1.31 14.61 3.76 6.83 0.01 2.66 6.06 1.94 2.92
25 oasst-pythia-12b 0.07 2.81 0.00 0.00 0.00 1.52 0.00 0.01 0.33

3.2 梯队分析

梯队 代表模型 分数范围 特征
S 梯队 GPT-4 4.41 一骑绝尘,多项第一
A 梯队 Claude、GPT-3.5 2.5~2.8 能用但有明显短板
B 梯队 davinci 系列 1.4~2.1 部分场景可用
C 梯队 chatglm2、openchat 1.0~1.4 开源最强,整体弱
D 梯队 其余开源模型 <1.0 几乎不可用

四、6 大关键发现

发现 1:商业模型 vs 开源模型,鸿沟巨大

GPT-4(4.41)vs 最佳开源 chatglm2(1.31)→ 3.37 倍差距

在 2023 年,想用 Agent 做事,商业 API 几乎是唯一选择。

发现 2:会聊天 ≠ 会做事 ⭐ 最核心结论

很多模型在问答/对话上表现不错,但在 AgentBench 中"做事"极差。传统 NLP 能力(QA、推理、摘要)无法预测 Agent 能力。

评估 Agent 必须用"实战"环境,不能只看对话能力。

发现 3:长程推理是最大障碍

开源模型失败的核心原因:无法维持多步推理的连贯性

表现为:第 3~4 步开始偏离目标,后续越来越混乱。Agent 的核心不是"知道答案",而是"知道下一步该做什么"。

发现 4:指令遵循决定上限

能准确理解并执行复杂指令的模型,Agent 表现显著更好。改进方向是高质量多轮对齐数据训练。

对数字员工来说,"听得懂话"比"知识丰富"更重要。

发现 5:代码训练的矛盾效果

代码训练在 OS/DB 环境有益,但在游戏/购物环境可能有损。不存在"万能训练方法",Agent 能力是多维的。

发现 6:卡牌游戏是"众神黄昏"

DCG(卡牌游戏)几乎所有模型得分 ≈ 0,包括 GPT-4 也只有 0.01 分。复杂博弈和策略规划仍是当前 LLM 的天花板


五、AgentBench 的历史地位

AgentBench 是 Agent 评测领域的开山之作(2023.08),它的价值在于:

  1. 定义了问题:把"LLM 能不能做 Agent"从定性讨论变成定量评测
  2. 建立了方法论:多环境×多模型的系统评测范式,SWE-bench、HAL、GAIA 等后续工作都在此基础上发展
  3. 揭示了鸿沟:首次用数据证明商业模型 vs 开源模型在 Agent 能力上的巨大差距,推动了开源社区加速追赶
  4. 提供了基础设施:开源的评测框架成为后续研究的标准工具

但它也有局限:

  • ❌ 每个环境只跑一次,不测可靠性(HAL 后来专门补充)
  • ❌ 2023 年数据,模型已大幅迭代
  • ❌ 不评估一致性/鲁棒性

六、给 AI 工程师的启示

如果你在构建或评估 AI Agent 系统,AgentBench 的三个启示值得铭记:

1. 多维测试,不要只看问答分数

MMLU、C-Eval 这类通用评测无法反映 Agent 的真实能力。想知道你的模型/系统能不能用,必须放到真实任务场景里测。

2. 关注失败模式,不只是成功率

AgentBench 不只给分,还分析"为什么失败"(10 类失败原因)。失败归因比通过率更有价值——它告诉你下一步该改什么。

3. 能力是多维的,警惕单一指标

代码训练提升了 OS/DB 能力,却可能损害游戏能力。没有"万能优化方法",构建 Agent 系统需要为目标场景单独设计和测试。


总结

AgentBench 用一句话说清楚了 2023 年 LLM 的 Agent 现状:

GPT-4 是班里的学霸,开源模型是等待觉醒的追赶者,而"博弈"这道题,全班都还不会答。

两年后的今天(2025~2026),开源模型已大幅追赶,但 AgentBench 揭示的核心规律——长程推理能力、指令遵循质量决定 Agent 上限——依然是构建 AI Agent 系统的第一原则。


参考资料


作者:路易乔布斯 | 系列:AI Agent 评测七日研读

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐