中国电子：华为云CloudMatrix384：超节点突破与国产算力的自主崛起

作者：小编点击：发布时间：2025-06-25 17:49

中国电子：华为云CloudMatrix384：超节点突破与国产算力的自主崛起(图1)

　　2025年4月10日，以“聚力共创，加速行业智能跃迁”为主题的华为云生态大会2025在安徽芜湖召开。华为公司常务董事及云计算CEO张平安在大会上公布了AI基础设施架构突破性新进展。推出基于新型高速总线架构的CloudMatrix384超节点集群——由384张昇腾 Kaiyun平台官方芯片组成的超大云服务器，通过全面的架构创新，在算力、互联带宽、内存带宽等方面实现全面领先，并已在芜湖数据中心规模上线。

　　华为云推出的CloudMatKaiyun平台官方rix384超节点集群通过新型高速总线架构实现多项技术突破。该架构采用全对等互联总线和共享以太网技术，将资源互联带宽提升了10倍以上。同时，单集群集成384张昇腾芯片，算力密度与内存带宽均实现行业领先，支持超大规模MoE模型高效推理，极大简化开发复杂度并降低算力成本。

　　CloudMatrix384超节点在规模及推理性能上比肩英伟达NVL72超节点。此前，英伟达NVL72系统最大支持72卡集群，而华为通过“384卡无收敛组网”技术，将单节点规模扩展至384卡，成为全球最大的商用AI算力集群。实际测试中，硅基流动基于CloudMatrix384部署DeepSeek-R1模型，在单用户20TPS负载下实现1920tokens/秒的吞吐量，超越国际主流芯片的1850tokens/秒，且生成精度在知识问答、代码生成等任务中表现更优。然而值得注意的是，单个NVIDIA HGX H200系统（8张H200芯片）部署DeepSeek-R1NIM可达到3872tokens/秒，虽此比较受限于模型和测试条件的差异，但CloudMatrix384凭借384张芯片规模在处理大规模MoE架构模型时展现出独特优势。在资源有限的场景下（如边缘计算），NVIDIA HGX H200系统的每GPU性能优势更明显；在数据中心超大规模部署中，CloudMatrix384的规模优势更突出。

　　AI基础设施是大模型落地的关键支撑。DeepSeek的高效、低成本MoE架构虽然为应对大模型推理挑战打开了局面，但其成功部署离不开强大的AI基础设施技术能力。CloudMatrix384通过高带宽、低延迟的架构设计，使MoE模型推理效率大幅提升。CloudMatrix384的单节点超大规模特性可容纳更多MoE并行计算，而无需频繁跨服务器通信，显著降低开发门槛。这种能力为AI应用从实验室走向商业化提供了高效、低成本的算力底座，成为应对大模型推理挑战的核心驱动力。

　　CloudMatrix384的全栈自主研发特性，为国产AI崛起注入强心剂。我们认为，在地缘政治波动背景下，其摆脱对海外芯片依赖的能力至关重要。同时，华为云通过昇腾AI云支持160余种第三方大模型（如DeepSeek），推动国产生态快速成型。这种“基础设施+模型”的协同模式，不仅验证了软硬一体化的可行性，更预示着中国AI产业正从“单点突破”转向“系统性领先”，为全球AI竞争提供自主可控的解决方案。

　　以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息，证券之星对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至，我们将安排核实处理。如该文标记为算法生成，算法公示请见网信算备240019号。

标签：

华为云容器化部署

KAIYUN(中国大陆)官方网站-创造最伟大的开云

中国电子：华为云CloudMatrix384：超节点突破与国产算力的自主崛起

联系方式

二维码