我有英伟达GPU,我有云公司。

英伟达常有新的消息让人惊讶。

最近一家来自美国的云初创公司 CoreWeave 发布了一则新闻。

这家公司宣布融资23亿美金,而更让人震惊的是这笔钱的抵押物是其拥有的GPU。在大模型热潮下,GPU俨然成为一种硬通货,而CoreWeave之所以能有如此多的英伟达稀缺物品,是因为它过去的身份——北美最大的以太坊矿工。

在面对挖矿的不可持续性后,CoreWeave把目光转向AI等需要并行计算的领域。尽管英伟达芯片的产能当时还足够充分,但CoreWeave已经预见到了这一领域的巨大潜力。

由此,CoreWeave宣称自己是世界上唯一一家能够大规模提供H100算力的公司,不仅如此,该公司还摇身一变成为了一家“云厂商”。

是的,它的GPU供给超越了所有云服务巨头,包括谷歌云、亚马逊云和微软的Azure。

听上去有些奇特,即使是不谈GPU数量瓶颈,构建数据中心还需要巨量的成本,精巧的空间、能源和散热设计以及十分复杂的软硬件协同,一般来说,能满足这些条件的只能是巨头,而不是刚进行了B轮融资(4.21亿美元)的初创公司。

CoreWeave能够做到这一点,源于一种对数据中心截然不同的理解。

传统的数据中心由CPU构成,它们侧重于通用计算的能力,主要由最开始是英特尔,后来是AMD的芯片所垄断。

全新的用于加速计算的数据中心更加强调并行计算,这就意味着它需要更大的内存、更高的带宽以及将所有加速计算单元紧密连接起来的能力。英伟达创始人和CEO黄仁勋将其称之为“数据中心现代化”,他认为这是一个需要持续10年的周期。

这个新周期的开始预示着整个数据中心的建构方式,软硬件协同乃至电源和散热结构都需要重新设计。这让所有的云服务提供商几乎重回起跑线——针对 CPU 设计的上一代的数据中心方案几乎完全无法照搬。比如,英伟达连接庞大GPU集群所用到的 Infinite Band 技术需要超过500英里的电缆,这在传统的数据中心设计中根本不存在。

CoreWeave 举了一个有趣的例子,在相同的空间大小下,GPU 集群所需的电力是传统数据中心的 4 倍。这就意味着,新数据中心的电力系统和散热系统都需要进行完全重新设计。这甚至还不算软硬件协同的成本。

CoreWeave通过提供庞大的H100算力,在保持比其他云服务低80%的费用的同时,能够抢占先机。这一优势得益于CoreWeave从一开始就践行了黄仁勋关于数据中心的愿景——数据中心正朝着加速计算方向发展,而稀少的算力则通过云供应得到满足。

就这样,一家虚拟币挖矿公司就变成了一家当红的云计算公司,只因为它是最忠诚的英伟达门徒。

英伟达云是个什么云

显然,拥有最多的英伟达GPU的公司就是最红的云厂商。

为了支持类似云初创企业的发展,英伟达也在积极建设自己的云计算平台。

英伟达亲自下场做云的优势有很多,最明显的是它不受到GPU供需关系的困扰。马斯克曾在公开场合说,获得GPU比获得毒品要难多了,而CoreWeave之所以能提供超大规模的 H100 算力,据悉也和英伟达的充分供应有关——英伟达在几个月前参与了CoreWeave的 B 轮融资。

显然,仅仅投资一些初创公司还不够。生成式 AI 对算力的巨大需求最终让英伟达自己下场。在今年 3 月的 GTC 大会上,英伟达 推出了自己的云服务 DGX Cloud,它已在年中正式上线。

从名称就可以看出,DGX Cloud 是直接利用了英伟达 DGX 超级计算机的能力。该云服务的每个实例都配备了 8 个 H100 或 A100 GPU 和 640GB 内存。

DGX Cloud采用了一种低延迟结构,让庞大的工作流可以在集群之间扩展,于多个计算节点上并行分配。举个例子来说,最先宣布与DGX Cloud合作的甲骨文,它在OCI Supercluster上每个集群可以部署超过3万个A100 GPU,由此大模型可以在云上进行训练。用户在任何地方都能自由访问属于自己的 AI 超级计算机(英伟达表示算力的分配是独享排他的),打交道的只有前台界面,除了开发过程本身不用再去担心任何和硬件基础设施有关的问题。

这项服务采用月租形式,金额高达近 4 万美元。相比直接买一台 DGX 服务器 20 万美元的价格,月租形式还是便宜了许多。不过,也有许多人都指出,微软的 Azure 同样 8 个 A100GPU 的收费只有不到 2 万美元,几乎是前者的一半。

这么贵?因为英伟达的云服务和别家不同,它不仅包括算力,还包括一整套 AI 解决方案。

基础命令平台和 AI Enterprise 的两项服务已经被集成到了DGX Cloud中。基础命令平台是一个管理与监控软件,它的功能包括记录云端算力的训练负载、提供跨云端和本地算力的整合,以及让用户直接从浏览器访问 DGX Cloud。AI Enterprise 是英伟达 AI 平台中的软件层,它提供了数千个软件包,包括各种预训练模型、AI 框架和加速库,从而简化端到端的 AI 开发和部署成本。除此之外,DGX Cloud 上还提供名为 AI Foundations 的模型铸造服务,让企业用户可以使用自己的专有数据定制属于自己的垂直大模型。

这道题目要求我们修改文中的开头,使其以纯文本形式返回,并确保开头不要换行,不要和原文一模一样。经过分析,我们可以得出修改后的开头为:“DGX Cloud 的训练速度相比传统的云计算提高了两到三倍,这成为了 DGX Cloud 与传统云服务最大的不同。”

黄仁勋的野心和现实

这并不意味着英伟达就彻底掀了传统云厂商的桌子。事实上,英伟达的服务是通过传统云厂商提供的。DGX Cloud 最开始被宣布推出在甲骨文云上,随后微软和谷歌跟进,而英伟达与这些云厂商合作的方式有些不同。英伟达会先将 GPU 硬件卖给这些云合作伙伴,然后再租用这些硬件以运行 DGX Cloud。

有的人把它戏称为“两边钱一起赚,都不耽误”。

实际上,黄仁勋解释过这种模式:“我们从让客户使用我们的计算平台中受益,而客户通过将我们(的计算平台)置于他们(云厂商)的云中而受益。”

如果只听黄仁勋说,这就是个皆大欢喜的双赢结局,然而这只是他一贯的叙事而已。英伟达已经陷入与自己客户的竞争中,并且心知肚明。

DGX Cloud 进展告诉我们,黄仁勋并不打算仅仅把它布置于传统云厂商上。在八月的 SIGGRAPH 2023 上,英伟达先是宣布了与 Hugging Face 的合作,接着发布了名为 AI Workbench 的服务。它们都可以让用户便捷创建、测试和定制预训大模型,其背后的算力支持自然都包括了 DGX Cloud。

显然,这将对英伟达与云服务提供商之间的关系产生冲击。英伟达是许多大型云服务提供商的主要客户之一,包括谷歌、亚马逊和微软。因此,英伟达推广其自有云服务可能会争夺这些客户的市场份额。尤其是我们已经在第一部分讨论过的事情,这些数据中心和云服务提供商在构建下一代数据中心方面本来就不具备多少优势。如果再加上英伟达芯片产能“卡脖子”的问题,英伟达的自有云服务威胁就更加不可忽视了。

黄仁勋不会不知道这一点,因此他对DGX Cloud的态度就显得颇值得玩味了。比如他公开表示,一个恰当的云服务组合比例应该是10%英伟达DGX加上90%的公有云。换而言之,DGX Cloud 在黄仁勋的定位里并不是传统云厂商的对手与威胁,而是合作伙伴。

在 Q1 季度财报公布后的分析师电话会上,黄仁勋谈的更多的都是这种合作的好处,他如此形容:“一个巨大的双赢。”在他的理解里,DGX Cloud 是一个纯粹的英伟达堆栈(pure Nvidia stack),把人工智能开发、大型数据库和高速低延迟网络组合在一起,成为一种便捷的AI 基础设施,从而打开全新的、巨大的市场——这个市场的参与者包括了英伟达和传统云厂商,大家将共同受益于生成式 AI 的爆发。

DGX Cloud 恐怕很长时间内都只能维持一个较小的体量,因此极力避谈冲突。

第一个原因当然是对算力需求的迅速增长。黄仁勋曾用“订单多到不可思议”来形容数据中心业务量的激增,而英伟达作为一家致力于开发并保证生产尽可能多符合市场需求的先进芯片的公司,也深知要满足云计算市场的需求,扩大规模是至关重要的。

尽管台积电在马不停蹄地生产,但值得注意的是算力缺口不是变小而是更大了。这是因为一旦大模型落地和商业化(比如像ChatGPT那样),其推理成本将随着用户规模的提升指数级升高。长远来看,会比训练模型的算力需求大得多。有人给出的倍率是100。

此外,我们还考虑到英伟达和传统云厂商之间合作关系的复杂性。如果DGX Cloud作为一种纯粹的竞品出现,或许会占领可观的市场份额,但势必进一步加速云厂商摆脱对英伟达的依赖——它们本来就已经为了少交点“英伟达税”而不约而同地自研芯片了。

从另一个角度讲,全力扩大 DGX Cloud 规模可能也不符合英伟达的最佳利益。从芯片到游戏显卡再到服务器和数据中心,英伟达很少自己制造硬件产品,它更喜欢和OEM厂商合作——以至于许多时候你要采购英伟达芯片都还是得经过OEM厂商。这让英伟达很好的控制成本,维持利润率。

今天,英伟达和云厂商之间似乎维持了一种平衡。然而,平衡就是用来打破的。尤其是当一方是英伟达的时候,因为现在正是黄仁勋所谓“下一代数据中心十年”更新周期的第一年。