孰优孰劣？华为CloudMatrix 384超节点对阵英伟达NVL72超节点

作者：小编点击：发布时间：2025-07-09 07:18

孰优孰劣？华为CloudMatrix 384超节点对阵英伟达NVL72超节点(图1)

　　所谓AI训练的超节点，是指多个GPU通过总线互联，外观上呈现为一个较大的服务器，NVIDIA的DGX Pod就是一种典型的超节点架构。

　　在号称全球“科技春晚”的英伟达GTCKaiyun开云大会上，黄仁勋重磅发布了全新的Blackwell Ultra GPU，以及基于该芯片的NVL72服务器，震惊世界。

　　华为云生态大会2025上，华为公司常务董事、华为云计算CEO张平安又公布了AI基础设施架构突破性进展——CloudMatrix 384超节点，已在芜湖数据中心规模上线，成为国内唯一正式商用的大规模超节点。

　　CloudMatrix 384，就是384张昇腾算力卡组成的一台AI服务器节点。这不仅是中国最大的商用超节点，相较英伟达NVL72，它规模更大、算力更强、性能更优，由此成为AI推理时代的新动力。

　　之前英伟达利用超节点，可以实现36张GPU的超级AI服务器，此次英伟达公布72超节点技术，直接将AI服务器算力提升一倍！预计在2027年，英伟达的RubinUltra将搭载1TBHBM4e内存，NVL576系统算力高达15EFLOPS，较前代提升超15倍。

　　相比英伟达的72超节点技术，华为直接发布CloudMatrix 384，不愧是通信起家的公司，可以一次搞定384超节点技术！

　　在实际测试中，CloudMatrix 384单卡解码吞吐量达到1920 tokens/s，与英伟达H100集群持平，而成本仅为后者的三分之二。由于芯片产业链受限制，美国政府又针对中国市场禁售高端GPU，只有阉割版的H20，像H100的GPU可遇不可求，但是华为通过技术创新实现了国产AI服务器性能比肩H100集群，而且从成本还降低1/3，确实可喜可贺！

　　英伟达引以为傲的NVL72超节点，在同等规模的模型训练中，因通信延迟问题导致算力利用率仅82%，且部署成本高出40%。

　　DeepSeek的崛起让国产AI再度信心爆棚，但是算力受限确实引起了国产替代的担忧，不过华为云CloudMatrix 384超节点与DeepSeek，堪称绝配。

　　DeepSeek训练采用的MoE架构，会因All-to-All通信，产生GPU闲置、负载不均衡等问题。而华为云CloudMatrix 384超节点却能将DeepSeek训练时的各种问题全部化解，做到了化腐朽为神奇，成为部署DeepSeek的最优选。

　　华为云CloudMatrix 384超节点引领的算力普惠，加上DeepSeek带来的AI平权，为中国企业DeepSeek服务迅速上线，在无限次免费使用“满血版”DeepSeek的同时，彻底告别“服务器繁忙”的困扰。

　　新浪微博基于CloudMatrix 384推出的“评论罗伯特”AI功能，处理5.9亿用户实时交互时，响应速度提升3倍。

　　工程师们在传统8卡服务器上调试DeepSeek模型时，曾为复杂的并行计算焦头烂额——直到他们将代码迁移到华为CloudMatrix 384超节点。原本需要数百行工程优化的混合专家模型，现在只需勾选“专家并行”选项，算力资源池瞬间自动重组，如同乐高积木般精准咬合。

　　硅基流动今日也宣布联合华为云基于 CloudMatrix 384 超节点昇腾云服务和高性能推理框架 SiliconLL Kaiyun开云M ，用大规模专家并行最佳实践正式上线 DeepSeek-R1。

　　将复杂留给自己，是华为工程师的追求！华为工程师开发出“图形化部署界面”，让不懂代码的车间主任也能搭建AI模型——这或许才是技术民主化的终极形态。

　　还有很多技术派在坚持CUDA生态不可替代，但是华为昇腾云服务已悄然适配160多个第三方模型，DeepSeek-R1服务的单卡解码速度直逼H100显卡。

　　中国企业开始用国产算力训练出比肩GPT-4的模型时，全球AI产业的话语权已经回到中国玩家手中！中国国产算力与国产大模型必定可以领先世界AI行业。

标签：

华为云容器化部署

上一篇：常山北明搭上了华为CloudMatrix 384超节点的大发展
下一篇：暂无

KAIYUN(中国大陆)官方网站-创造最伟大的开云

孰优孰劣？华为CloudMatrix 384超节点对阵英伟达NVL72超节点

联系方式

二维码