AI与云的融合走到哪一步了?

GPU算力的弹性调度已经成为云厂商竞争的核心战场。AWS、Azure、GCP三大平台都在2025年前后把大模型推理和训练能力下沉到基础设施层,企业不再需要自建GPU集群就能跑千亿参数级别的模型。

这背后的变化比"多了一项云服务"要深刻得多。传统云计算卖的是计算、存储、网络三件套,AI原生云卖的是"从数据到模型到推理"的完整工作流。Gartner在2025年的报告中预测,到2027年超过70%的企业会通过云平台消费AI能力,而非自建。

对技术决策者来说,关键问题不是"要不要用云上AI",而是三个实操层面的判断:

判断维度 核心问题 典型约束
算力弹性 训练和推理的峰值算力能否按需扩缩? GPU供应紧张时的排队机制、预留实例定价
数据流转 训练数据上云的合规路径是否通畅? 行业监管对数据出境的限制
成本可控 推理成本能否随业务量线性增长? Token计费vs包月计费的ROI拐点

边缘计算和混合云为什么越来越主流?

"All-in公有云"的策略正在被修正。IDC的调研数据显示,2025年全球超过60%的企业采用了混合云或多云架构,比2022年的42%有明显增长。

驱动这个趋势的不是技术偏好,而是业务约束。延迟敏感型应用需要边缘节点,数据合规要求某些工作负载必须留在本地,成本优化则要求把稳态负载放在性价比更高的环境里。

一个典型的混合部署架构长这样:

工作负载类型 部署位置 选择理由
实时推理、IoT数据预处理 边缘节点 延迟要求低于20ms
核心交易系统、敏感数据 私有云/本地机房 合规要求数据不出境
弹性计算、开发测试环境 公有云 按需扩缩,避免资源闲置
大规模模型训练 公有云GPU集群 峰值算力需求高,自建不划算

技术决策者需要避免的误区是把"混合云"当成一个架构模式来套。实际上它更像一组决策规则:每个工作负载根据延迟、合规、成本三个维度独立选择最优部署位置。
在这里插入图片描述

Serverless和容器编排成熟到什么程度了?

Kubernetes已经从"前沿技术选型"变成了默认基础设施。CNCF的2025年度调查显示,全球超过80%的组织在生产环境中使用Kubernetes,容器编排的讨论重心从"要不要用"转向了"怎么治理"。

Serverless则在向更复杂的工作负载延伸。早期的Serverless主要承载无状态的短时函数计算,现在已经能支撑有状态的后端服务、流式数据处理甚至机器学习推理任务。

但Serverless不是万能的。它的适用边界很清晰:

适合Serverless的场景 不适合Serverless的场景
请求驱动、短时执行的API 长连接、持续运行的服务
流量波动大、有明显峰谷的业务 稳态高并发、流量平稳的业务
事件触发的数据处理管道 需要精细控制运行时环境的任务
快速原型验证、MVP阶段 对冷启动延迟极度敏感的实时系统

技术Leader在做架构决策时,Serverless和容器编排不是二选一的关系,而是同一个平台上的两种运行模式。稳态核心服务跑在K8s上,弹性周边任务交给Serverless,是当前最常见的组合方式。

数据主权和合规怎么影响云架构选型?

数据主权已经从合规部门的议题变成了架构选型的硬约束。欧盟GDPR持续加强执行力度,中国《数据安全法》和《个人信息保护法》对跨境数据传输设置了严格的安全评估流程,印度、巴西、越南等国也在加速推进本地化要求。

对技术决策者来说,合规约束直接影响三个架构层面的决策:

第一是云厂商的选择范围。业务涉及多个国家时,需要确认目标云厂商在对应区域有本地数据中心,且能提供数据驻留保证。

第二是数据流转的架构设计。采集、存储、处理、传输每个环节都需要明确数据的物理位置和跨境路径。"数据在哪里处理"不再是性能优化问题,而是合规红线问题。

第三是供应商锁定的风险评估。如果某个区域的合规政策变化导致需要迁移云厂商,多云架构和标准化的容器部署能降低迁移成本。

FinOps为什么从可选变成了必选?

企业云支出的增长速度已经超过了大多数CFO的预期。Flexera的2025年云状态报告显示,企业平均有32%的云支出属于浪费,主要来自闲置资源、过度配置和未优化的定价方案。

FinOps的核心不是"省钱",而是"让每一块钱的云支出都能对应到具体的业务价值"。它需要技术团队、财务团队和业务团队协同工作,建立三个核心能力:

能力层 做什么 关键指标
可见性 精确归因每笔云支出到业务单元和项目 成本归因覆盖率(目标≥95%)
优化 自动识别和清理闲置资源、选择合适的计费模式 资源利用率、预留实例覆盖率
运营 建立预算预警、异常检测和审批流程 月度预算偏差率(目标±10%以内)

一个实操建议:不要等云账单"爆了"再做FinOps。在架构设计阶段就把成本作为一个设计约束纳入考量。每个微服务的资源配额、每个数据管道的存储策略、每个AI推理任务的计费模式,都应该在设计文档里有明确的成本预估。

云安全的重心在往哪个方向移?

零信任架构正在从概念走向落地。传统的边界安全模型假设"内网是安全的",但混合云和远程办公彻底打破了这个假设。零信任的核心原则是"永不信任,始终验证",每次访问请求都需要经过身份认证、权限校验和上下文评估。

与此同时,"安全左移"成为云原生开发的标配实践。安全不再是上线前的最后一道检查,而是从代码编写阶段就开始介入:

阶段 安全实践 工具类型
编码 依赖项漏洞扫描、密钥泄露检测 SCA、Secret Scanner
构建 容器镜像安全扫描、配置合规检查 镜像扫描器、IaC安全检查
部署 运行时策略执行、网络微分段 OPA/Gatekeeper、服务网格
运行 行为异常检测、自动化响应 CWPP、CNAPP

对技术Leader来说,云安全的投入重点应该从"买更多安全产品"转向"把安全能力嵌入到已有的DevOps流水线里"。安全团队和开发团队共享同一套工具链和工作流,比独立运作的安全审计效率高得多。
在这里插入图片描述

技术决策者现在该怎么看云计算选型?

回到最根本的问题:云计算选型的判断框架正在发生变化。

五年前,选云主要看性能参数和价格。现在,业务场景适配度、合规约束、成本可预测性和供应商生态成了同等重要的维度。单纯比"谁的虚拟机更便宜"已经没有意义,真正影响业务的是"这个场景下,哪种架构组合的总拥有成本最低、合规风险最小、弹性最好"。

几个值得持续关注的方向:AI原生云服务的成熟度和定价模式演变、边缘计算标准化进程、各国数据主权法规的最新动态、以及FinOps工具链的自动化水平。技术决策不是一次性选择,而是持续优化的过程。

FAQ

Q:中小企业是否有必要做多云或混合云架构?

不一定。多云和混合云带来灵活性的同时也增加了运维复杂度。如果业务规模中等、合规要求不涉及数据本地化,单一云厂商往往是更务实的选择。等到业务增长到需要多区域部署或有明确的合规驱动时,再逐步引入混合架构。

Q:Serverless的冷启动问题解决了吗?

大幅改善但没有完全消除。主流云厂商的冷启动延迟已经从秒级降到了百毫秒级,部分平台提供预热机制可以进一步压缩。对P99延迟要求在50ms以内的场景,仍然建议用常驻容器服务。

Q:FinOps需要专门建团队吗?

不一定要独立团队,但需要明确的责任人。中小规模企业可以由SRE或平台工程团队兼任,关键是建立成本归因和预算预警的自动化流程。规模较大的企业通常会设置专职的FinOps工程师或云成本优化岗位。

Q:零信任架构的落地周期一般多长?

视企业规模和现有架构复杂度而定,通常需要12到24个月逐步推进。建议从最关键的应用和数据开始,分阶段实施,而不是试图一次性改造整个基础设施。身份认证和访问控制是优先级最高的切入点。

Q:云原生安全和传统网络安全的核心区别是什么?

传统网络安全以边界防护为核心,假设内网可信。云原生安全则假设任何节点都可能被攻破,强调最小权限、微分段、持续验证和自动化响应。最大的实操区别是安全策略需要跟着工作负载走,而不是跟着网络边界走。

Q:如何评估一个云厂商的数据主权合规能力?

重点看四个方面:目标区域是否有本地数据中心、能否提供数据驻留的技术保证和合同承诺、是否通过当地的安全认证、以及在数据跨境传输方面是否有成熟的合规方案。建议在采购阶段就让法务和合规团队参与评估。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐