OpenAI 如何安全运行 Codex：Agent 时代的“AI 安全操作系统

OpenAI 如何安全运行 Codex：Agent 时代的"AI 安全操作系统" OpenAI 文章揭示了 Codex 作为执行系统的安全架构，标志着 AI 从建议系统向执行系统的转变。核心安全机制包括：沙箱隔离：限制文件、网络和系统访问分级审批：低风险自动执行，高风险人工审批网络管控：严格限制外网访问凭证管理：绑定企业身份体系行为审计：完整记录 Agent 意图和执

Jumpshot719

11人浏览 · 2026-05-13 13:25:15

Jumpshot719 · 2026-05-13 13:25:15 发布

OpenAI 如何安全运行 Codex：Agent 时代的“AI 安全操作系统”

原文：
《Running Codex safely at OpenAI》
https://openai.com/index/running-codex-safely/

前言

随着 Agent 能力越来越强，LLM 已经不只是“生成文本”。

而是开始真正：

执行 Shell
修改代码
操作 GitHub
调用 Kubernetes
访问网络
自动提交 PR

这意味着：

AI 开始从“建议系统”变成“执行系统”

而一旦 AI 能执行动作：

安全问题就会迅速升级。

OpenAI 这篇文章，本质上讲的是：

如何把 Coding Agent 安全地部署到真实企业环境。

它并不是传统 AI Safety 那种：

Alignment
Hallucination
RLHF

而是：

Agent Runtime Security（Agent 运行时安全）

这是未来 Agent Infra 非常关键的方向。 ([OpenAI][1])

一、文章核心思想

OpenAI 对 Codex 的设计目标非常明确：

Agent 必须在“受控边界”内高效工作。

核心原则：

低风险操作尽量无感
高风险操作必须审核
所有行为必须可追踪

对应三个关键词：

核心能力	作用
Sandboxing	限制 Agent 权限
Approval System	控制危险动作
Telemetry	审计 Agent 行为

这其实已经非常像：

“AI 版操作系统权限模型” ([OpenAI][1])

二、Sandbox：Agent 必须运行在笼子里

文章首先强调：

Codex 默认运行在 Sandbox 中

Sandbox 会限制：

文件写入范围
网络访问
系统命令
本地资源

例如：

allowed_sandbox_modes = ["read-only", "workspace-write"]

意思是：

Codex 只能：

只读
或仅写入工作目录

不能随意操作整个系统。 ([OpenAI][1])

三、Approval System：危险动作必须人工批准

这是全文最重要的设计之一。

OpenAI 并不认为：

所有命令都一样危险

而是：

对不同动作做风险分级。

例如：

低风险：

git diff
gh pr view
kubectl logs

允许自动执行。

高风险：

rm -rf
网络访问
修改系统目录
生产环境操作

必须人工批准。 ([OpenAI][1])

四、Auto-review：让 Agent 自己审批低风险行为

OpenAI 做了一个非常有意思的机制：

Auto-review Subagent

流程：

Codex 请求执行动作
    ↓
Auto-review Agent 判断风险
    ↓
低风险自动批准
高风险中断等待用户

这样可以减少：

用户频繁点 approve

的问题。

本质上：

用 Agent 管 Agent。 ([OpenAI][1])

五、Network Policy：不给 Agent 开放互联网

这是文章里很关键的一点。

OpenAI 明确表示：

Codex 不允许无限制外网访问

他们采用：

Allow List
Deny List
Proxy Network

机制。

例如：

denied_domains = ["pastebin.com"]
allowed_domains = ["*.openai.com"]

这意味着：

Agent：

不能随便访问未知网站
不能自由 exfiltrate data
不能随意下载恶意内容

这本质上是：

企业级 Egress Control（出口控制）。 ([OpenAI][1])

六、Credential Management：Agent 不应该直接持有凭据

文章提到：

OAuth 凭据统一保存在 OS Keyring

例如：

cli_auth_credentials_store = "keyring"

并且：

强制通过 ChatGPT 登录
强制绑定 Enterprise Workspace

这样做的意义：

把 Agent 权限绑定到组织级身份体系。 ([OpenAI][1])

七、Rules System：不是所有 Shell Command 都平等

这是一个非常重要的工程思想。

OpenAI 为 Codex 引入了：

Command Rule System

例如：

prefix_rule(
  pattern = ["kubectl", ["get", "logs"]],
  decision = "allow"
)

意思：

只允许 kubectl get/logs
但不允许 kubectl apply/delete

本质上：

Agent Command Firewall

这和传统：

Linux capability
sudo policy
SELinux

已经非常接近。 ([OpenAI][1])

八、Telemetry：Agent 必须“可审计”

文章后半部分重点讨论：

Agent Native Telemetry

传统安全日志只能看到：

发生了什么

例如：

某进程启动
某文件被修改

但：

看不到“为什么”

而 Agent 最大的问题：

恰恰是：

Intent（意图）

九、为什么传统日志不够？

例如：

安全系统发现：

Codex 执行了 kubectl

问题：

它为什么执行？
是谁要求的？
是正常修复还是恶意行为？

传统日志无法回答。

所以 OpenAI 引入：

Agent-aware Telemetry

记录：

用户 Prompt
Tool 调用
Approval Decision
Tool Result
Network Policy

本质上：

给 Agent 增加“行为轨迹”。 ([OpenAI][1])

十、OpenTelemetry：Agent 世界的标准日志协议

Codex 使用：

OpenTelemetry（OTel）

导出日志。

例如：

[otel]
log_user_prompt = true

然后接入：

SIEM
Compliance Platform
Security Pipeline

这说明：

Agent 正在进入传统企业安全体系。 ([OpenAI][1])

十一、AI Security Triage Agent：AI 审计 AI

文章里最有意思的部分之一：

OpenAI 使用：

AI Security Triage Agent

分析 Codex 行为。

流程：

Endpoint Alert
    ↓
读取 Codex Logs
    ↓
分析用户意图
    ↓
判断：
- 正常行为
- 误操作
- 风险行为

这意味着：

安全系统也开始 Agent 化。 ([OpenAI][1])

十二、为什么这是 Agent 时代的重要转折点？

以前：

LLM 更像：

高级搜索引擎

现在：

Codex 已经变成：

可执行系统

而：

一旦 AI 开始“执行”

整个安全模型都会变化。

因为：

传统 Chatbot：

只能输出文本

但 Agent：

能真正修改现实系统

包括：

改代码
操作云资源
修改配置
访问生产环境

所以：

Agent Security 会成为未来 AI Infra 核心领域。 ([OpenAI][1])

十三、文章背后真正的核心思想

我认为这篇文章最重要的，不是某个配置文件。

而是：

OpenAI 正在把 Agent 当成“操作系统进程”管理。

对应关系非常明显：

Agent 世界	操作系统类比
Sandbox	容器/沙箱
Approval	sudo
Network Policy	防火墙
Rules	SELinux
Telemetry	Audit Log
Workspace Identity	IAM
Auto-review	Policy Engine

这意味着：

Agent Runtime 正在逐渐“操作系统化”。

十四、与传统 AI Safety 的区别

传统 AI Safety 关注：

有害内容
对齐
幻觉
偏见

而这篇文章讨论的是：

Runtime Safety

核心问题变成：

Agent 能执行什么？
能访问什么？
谁批准？
如何追踪？

这是：

真正面向生产环境的 AI 安全。 ([OpenAI][1])

十五、对 Agent 工程的启发

这篇文章其实透露了未来 Agent 系统的标准架构：

1. 默认 Sandbox

Agent 不应直接拥有系统权限。

2. 权限分级

不是：

允许 / 禁止

而是：

风险分层。

3. Agent 必须可审计

否则企业无法落地。

4. Agent 要有行为轨迹

仅有系统日志不够。

5. 安全系统也会 Agent 化

未来：

AI 审计 AI

会成为常态。

结语

OpenAI 这篇文章最大的价值在于：

它展示了：

Agent 正在从“聊天机器人”变成“受控执行系统”。

而未来真正重要的竞争点：

可能已经不是：

模型会不会写代码

而是：

如何安全地让模型执行代码。

这意味着：

未来 Agent Infra 的核心能力，很可能会围绕：

Sandbox
Policy Engine
Telemetry
Approval Workflow
Runtime Governance

Agent Engineering 也正在逐渐演化成： “面向 AI 执行系统的软件工程”

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

Vite 插件开发实战：从原理到自定义构建流水线

构建时转换→transformload（代码转换、注入）开发服务器增强→（HMR、代理）HTML 注入→（脚本、样式注入）产物处理→（分析、压缩）掌握这 5 个插件的实现思路，你就能应对 90% 的定制构建需求。建议从简单的环境变量注入开始，逐步挑战路由生成和产物分析。插件开发是前端工程化的高级技能，值得深入投入。

openEuler 社区

本地生活团购小程序开发全流程解析：从架构设计到商业落地

openEuler 社区

从零开始做资产测绘

摘要：《网络安全法》明确禁止非法侵入网络、窃取数据等行为。渗透测试前需进行全面的信息收集，包括企业信息查询、备案查询、IP/端口扫描、子域名爆破、旁站查询等。通过识别操作系统、中间件、脚本语言和数据库等"Web四要素"，结合目录扫描寻找漏洞入口。整个流程包括目标确认、资产测绘、子域名爆破、端口扫描、Web指纹识别和漏洞挖掘等步骤。强调必须遵守《网络安全法》，仅在授权范围内开展测

openEuler 社区

所有评论(0)

查看更多评论

Jumpshot719

@2403_87381789

已为社区贡献1条内容

OpenAI 如何安全运行 Codex：Agent 时代的“AI 安全操作系统

Jumpshot719

OpenAI 如何安全运行 Codex：Agent 时代的“AI 安全操作系统”

前言

AI 开始从“建议系统”变成“执行系统”

如何把 Coding Agent 安全地部署到真实企业环境。

Agent Runtime Security（Agent 运行时安全）

一、文章核心思想

“AI 版操作系统权限模型” ([OpenAI][1])

二、Sandbox：Agent 必须运行在笼子里

Codex 默认运行在 Sandbox 中

三、Approval System：危险动作必须人工批准

对不同动作做风险分级。

四、Auto-review：让 Agent 自己审批低风险行为

Auto-review Subagent

用 Agent 管 Agent。 ([OpenAI][1])

五、Network Policy：不给 Agent 开放互联网

Codex 不允许无限制外网访问

企业级 Egress Control（出口控制）。 ([OpenAI][1])

六、Credential Management：Agent 不应该直接持有凭据

OAuth 凭据统一保存在 OS Keyring

把 Agent 权限绑定到组织级身份体系。 ([OpenAI][1])

七、Rules System：不是所有 Shell Command 都平等

Command Rule System

Agent Command Firewall

八、Telemetry：Agent 必须“可审计”

Agent Native Telemetry

看不到“为什么”

Intent（意图）

九、为什么传统日志不够？

Agent-aware Telemetry

给 Agent 增加“行为轨迹”。 ([OpenAI][1])

十、OpenTelemetry：Agent 世界的标准日志协议

OpenTelemetry（OTel）

Agent 正在进入传统企业安全体系。 ([OpenAI][1])

十一、AI Security Triage Agent：AI 审计 AI

AI Security Triage Agent

安全系统也开始 Agent 化。 ([OpenAI][1])

十二、为什么这是 Agent 时代的重要转折点？

一旦 AI 开始“执行”

Agent Security 会成为未来 AI Infra 核心领域。 ([OpenAI][1])

十三、文章背后真正的核心思想

OpenAI 正在把 Agent 当成“操作系统进程”管理。

Agent Runtime 正在逐渐“操作系统化”。

十四、与传统 AI Safety 的区别

Runtime Safety

真正面向生产环境的 AI 安全。 ([OpenAI][1])

十五、对 Agent 工程的启发

1. 默认 Sandbox

2. 权限分级

风险分层。

3. Agent 必须可审计

4. Agent 要有行为轨迹

5. 安全系统也会 Agent 化

结语

Agent 正在从“聊天机器人”变成“受控执行系统”。

如何安全地让模型执行代码。

所有评论(0)

温馨提示：您尚未绑定手机号

Jumpshot719