服务热线:

13928851055

KAIYUN科技 | 大数据与人工智能 基础软件领导者

赋能数据未来,引领AI与大数据创新

KAIYUN(中国大陆)官方网站-创造最伟大的开云

行业新闻

孰优孰劣?华为CloudMatrix 384超节点对阵英伟达NVL72超节点

作者:小编 点击: 发布时间:2025-07-09 07:18

  

孰优孰劣?华为CloudMatrix 384超节点对阵英伟达NVL72超节点(图1)

  所谓AI训练的超节点,是指多个GPU通过总线互联,外观上呈现为一个较大的服务器,NVIDIA的DGX Pod就是一种典型的超节点架构。

  在号称全球“科技春晚”的英伟达GTCKaiyun开云大会上,黄仁勋重磅发布了全新的Blackwell Ultra GPU,以及基于该芯片的NVL72服务器,震惊世界。

  华为云生态大会2025上,华为公司常务董事、华为云计算CEO张平安又公布了AI基础设施架构突破性进展——CloudMatrix 384超节点,已在芜湖数据中心规模上线,成为国内唯一正式商用的大规模超节点。

  CloudMatrix 384,就是384张昇腾算力卡组成的一台AI服务器节点。这不仅是中国最大的商用超节点,相较英伟达NVL72,它规模更大、算力更强、性能更优,由此成为AI推理时代的新动力。

  之前英伟达利用超节点,可以实现36张GPU的超级AI服务器,此次英伟达公布72超节点技术,直接将AI服务器算力提升一倍!预计在2027年,英伟达的RubinUltra将搭载1TBHBM4e内存,NVL576系统算力高达15EFLOPS,较前代提升超15倍。

  相比英伟达的72超节点技术,华为直接发布CloudMatrix 384,不愧是通信起家的公司,可以一次搞定384超节点技术!

  在实际测试中,CloudMatrix 384单卡解码吞吐量达到1920 tokens/s,与英伟达H100集群持平,而成本仅为后者的三分之二。由于芯片产业链受限制,美国政府又针对中国市场禁售高端GPU,只有阉割版的H20,像H100的GPU可遇不可求,但是华为通过技术创新实现了国产AI服务器性能比肩H100集群,而且从成本还降低1/3,确实可喜可贺!

  英伟达引以为傲的NVL72超节点,在同等规模的模型训练中,因通信延迟问题导致算力利用率仅82%,且部署成本高出40%。

  DeepSeek的崛起让国产AI再度信心爆棚,但是算力受限确实引起了国产替代的担忧,不过华为云CloudMatrix 384超节点与DeepSeek,堪称绝配。

  DeepSeek训练采用的MoE架构,会因All-to-All通信,产生GPU闲置、负载不均衡等问题。而华为云CloudMatrix 384超节点却能将DeepSeek训练时的各种问题全部化解,做到了化腐朽为神奇,成为部署DeepSeek的最优选。

  华为云CloudMatrix 384超节点引领的算力普惠,加上DeepSeek带来的AI平权,为中国企业DeepSeek服务迅速上线,在无限次免费使用“满血版”DeepSeek的同时,彻底告别“服务器繁忙”的困扰。

  新浪微博基于CloudMatrix 384推出的“评论罗伯特”AI功能,处理5.9亿用户实时交互时,响应速度提升3倍。

  工程师们在传统8卡服务器上调试DeepSeek模型时,曾为复杂的并行计算焦头烂额——直到他们将代码迁移到华为CloudMatrix 384超节点。原本需要数百行工程优化的混合专家模型,现在只需勾选“专家并行”选项,算力资源池瞬间自动重组,如同乐高积木般精准咬合。

  硅基流动今日也宣布联合华为云基于 CloudMatrix 384 超节点昇腾云服务和高性能推理框架 SiliconLLKaiyun开云M ,用大规模专家并行最佳实践正式上线 DeepSeek-R1。

  将复杂留给自己,是华为工程师的追求!华为工程师开发出“图形化部署界面”,让不懂代码的车间主任也能搭建AI模型——这或许才是技术民主化的终极形态。

  还有很多技术派在坚持CUDA生态不可替代,但是华为昇腾云服务已悄然适配160多个第三方模型,DeepSeek-R1服务的单卡解码速度直逼H100显卡。

  中国企业开始用国产算力训练出比肩GPT-4的模型时,全球AI产业的话语权已经回到中国玩家手中!中国国产算力与国产大模型必定可以领先世界AI行业。

相关新闻
最新产品
在线客服
联系方式

热线电话

13928851055

上班时间

周一到周五

公司电话

13928851055

二维码
线