前几天, 有朋友向我发问, GPU服务器难道仅仅是用于打游戏的吗, 我当时一时愣住了。

这句话放置于十年之前, 或许确实存在一定道理, 然而在当下倘若仍然持有如此想法, 那便着实错失了太多内容。

真心讲, 对于GPU服务器这个东西而言, 现如今已然成为数字世界里那种不显眼的基础性建设设施。它可不是那种你能够每天都见到观察到的设备, 然而, 几乎是所有你所使用运用的物品事物的背后, 都存在有着它的踪迹影子。

为啥GPU服务器这么重要?

这种情况你或许留意到了: 这些年, 仿佛所有人都在谈论GPU服务器, 数据中心在采购, 云计算厂商也在采购, 科研机构同样在疯狂采购。

实际缘由其实特别容易理解——中央处理器处理任务是依照步骤逐个进行的, 然而图形处理器能够在同一时间处理数量众多达到成千上万个的任务。这样的差异在特定的场景状况之下, 那可就是相差极大犹如天地般的不同了。

我们以图像处理为例, 有一张高清照片, CPU处理完成渲染或许要用几十毫秒, 而GPU处理完成只需要几毫秒就能完成, 如果面对一万张照片, 那么这个差距将会被拉大到让人难以想象的地步。

故而, GPU服务器最关键的价值所在, 乃为并行计算。它并非是要用以取代CPU的, 而是专门用以处理那类CPU并不擅长应对的, 数量庞大并带有重复性的计算方面任务。

人工智能训练,GPU是绝对主角

这可能是GPU服务器最广为人知的应用了。

如果要训练一个类似GPT那样的大模型, 那么背后所需要的是成百上千块GPU持续运行几周的时间, 甚至要长达几个月。要是没有GPU服务器, 这些模型根本就无法跑动。

有一回, 我见到了一位朋友所属的公司, 先前运用CPU去开展一个图象识别模型的训练工作, 然而运行了三天时间, 结果却始终未能完成。随后, 该公司更换成了GPU服务器, 针对相同特性的数据, 仅仅耗费了六个小时, 最终就得出了结果。

这个差距不是一点点,是断崖式的。

并且不仅仅是训练的阶段, 就连推理阶段同样是需要GPU的。 你在手机之上所运用的人脸识别, 还有语音转文字, 其背后全部都是在GPU服务器上进行实时计算的。

科学计算和仿真,隐藏在实验室里

很多人不知道,气象局的天气预报是怎么做出来的。

涉及到那些繁杂复杂的流体力学模型, 以及大气环流计算, 传统的CPU服务器运行一遍, 或许大致也许真的可能大概需要几个小时。然而天气预报具备有时效性这一特性, 一旦过了窗口期, 其预测结果便不再具备任何意义了。

GPU服务器

GPU服务器参与进来, 将计算时间由几个小时降低到了几十分钟, 这是如今的天气预报愈发准确的原因当中的一个。

好似这般的还有基因测序, 还有药物分子模拟, 还有材料科学计算。这些领域内的研究, 很大程度之上依靠着GPU服务器所给予的高性能计算能力。

渲染农场,影视行业的幕后功臣

你看的那些特效大片,每一帧画面都需要大量计算资源来渲染。

一部并非特别出众的动画电影, 其中单单一帧画面的渲染所需时间, 有可能达到几十分钟之久甚或几个小时之长。一部时长为90分钟的电影, 要是依据每秒钟24帧来进行计算的话, 那其帧数便是12.96万帧。

如果用单台机器渲染,可能要几十年才能完成。

由GPU服务器集群所构成的渲染农场, 借由并行计算, 能够在几天直至几周的时段内达成全片的渲染任务。否则的话, 我们压根无法目睹那些具备视觉冲击力的电影啊。

自动驾驶,路上的超级大脑

每辆自动驾驶测试车上,都装着一台或者多台GPU服务器。

来自摄像头, 以及激光雷达, 还有毫米波雷达的海量数据, 这些设备得在毫秒级别内予以处理。行人要实时识别, 路况要实时判断, 路径要实时规划, 且全都要得以完成。

特斯拉以及Waymo这类公司, 能够持续优化自动驾驶算法, 所凭借的是几千台GPU服务器于后台夜以继日不间断地运行仿真测试, 模拟出各类极端路况情形, 较之在真实道路进行测试, 其效率表现要高出许多。

游戏和云游戏,它还是那个老本行

虽说在前边已然讲过GPU服务器并非仅仅用于打游戏, 然而那游戏的确是其至关重要的应用场景当中的一个。

当前的云游戏服务, 实则是将游戏渲染于远程的GPU服务器之上予以完成, 随后把画面实时传送到你的手机那儿。你的手机仅需进行解码以及显示, 无需具备强大的显卡。

这个模式正使整个游戏行业发生改变, 玩家无需再耗费高额费用购买显卡, 只要网络状况良好, 便能够在手机上玩3A大作。

金融和量化交易,速度就是一切

华尔街那些高频交易公司,GPU服务器是标配。

GPU服务器

从事股票交易时,究竟是谁能够更为迅捷地剖析那市场数据, 并且更为迅速地去施行交易指令, 那么谁便能够获取盈利。针对于用CPU大概会需要耗费几毫秒方可达成的交易策略计算, GPU服务器却能够于微秒这个级别之内尽数完成。

可别小瞧了这短短几毫秒所存在的差距, 就实际量化交易的情形而言, 这实实在在就是区分胜负的界限所在呀。

选GPU服务器要注意什么?

说实话,这东西不是随便买就行的。

首先存在的是计算精度这一情况。不同的应用场景对于精度所提出的要求并非相同。AI训练的情形下或许需要具备浮点32位的精度, 然而在推理场景之中浮点16位甚至8位便也能够满足使用需求。假若选得不正确, 那么要么会造成性能的浪费, 要么所计算得出的结果就是错误的。

接下来要说的是显存, 大模型开展训练是需要大显存的, 当前主流的AI模型, 动不动就要求几十GB的显存, 要是显存不足, 模型压根就没办法加载进去。

还有的便是互联带宽, 在多卡并联之际, 卡与卡相互之间的数据传输速度极为关键, 若带宽不足, 多卡所具备的优势便无法得以发挥出来。

最终涉及的是散热以及功耗, 此物的功耗极大, 一台GPU服务器的功耗大概在几百瓦至几千瓦之间, 要是散热工作做得不好, 那么性能将会出现大幅度的下降, 并且设备的使用寿命也会随之缩短。

未来会怎样?

趋势很明显,GPU服务器会越来越普及。

一方面, 算力需求呈现出爆炸式的增长态势, 在人工智能、自动驾驶, 以及元宇宙这些领域方向上, 其对应的算力需求, 几乎不存在着天花板。

在另外一方面, 存在着硬件正在处于快速迭代之中的状况。的GPU架构经历了从到, 而后又到这样的变化过程, 每一代产品的算力都呈现出成倍增长的态势。AMD以及Intel也都正在进行追赶的行动, 整个市场正处于快速进步的状态之中。

或许在未来几年之后, 小型企业乃至单人进行开发的人, 也是能够承担得起具备一定规模的图形处理器服务器所拥有的资源的。计算能力朝着大众普及的这种情况是正在以更快的速度来临的。

总的来说, GPU服务器并不是那种神秘莫测的事物, 它实际上就是一台配备了高性能GPU的计算机, 只是它被优化到了一种极致的状态, 是专门被用于处理那些需要大量并行计算工作的任务。

它不酷,但它支撑着很多很酷的东西。

要是你存在着能够接触到GPU服务器的机会, 不要被那些参数给吓唬到。从本质上来说, 它跟你正在使用的电脑不存在什么区别, 仅仅是在做某事方面更具优势罢了。

就如同你或许具备做饭的能力, 然而在专业厨师的厨房当中, 锅碗瓢盆相较于你家中的, 都要有更专业的特质, 要有更昂贵的价格。同时, 有着更高效的性能。而GPU服务器, 它就是数字世界里那专业的厨房。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐