服务热线:

13928851055

KAIYUN科技 | 大数据与人工智能 基础软件领导者

赋能数据未来,引领AI与大数据创新

KAIYUN(中国大陆)官方网站-创造最伟大的开云

企业新闻

中国首条算力光轨通车!国内首个分布式光互连光交换超节点发布

作者:小编 点击: 发布时间:2025-08-05 17:39

  超节点技术(SuperPod)是一种通过高带宽、低时延互连技术,将大量 GPU芯片整合为统一超级计算单元的技术架构。它突破了传统单服务器架构限制,将算力单元的概念扩展到了机柜,甚至跨机柜层面。

  在 2025 世界人工智能大会(WAIC)期间,上海仪电联合曦智科技、壁仞科技、中兴通讯,正式发布国内首个光互连光交换 GPU 超节点 —— 光跃 LightSphere X。据介绍,该超节点基于曦智科技全球首创的分布式光交换技术,采用硅光技术的光互连光交换芯片、壁仞科技自主原创架构的大算力通用 GPU 液冷模组及全新载板互连方案,搭载中兴通讯高性能 AI 国产服务器及仪电智算云平台软件,构建起高带宽、低延迟、灵活可扩展的自主可控智算集群新范式,即将于上海仪电智算中心落地应用。

  在 2025 WAIC 曦智科技光子网络成果媒体分享会上,曦智科技创始人、首席执行官沈亦晨博士向媒体详细介绍了该公司的光互连和光交换技术,也让记者们对光跃 LightSphere X 背后的技术原理有了更深层次的理解。

  目前业界有两种常见的超节点方案:一种是通过提升单机柜功耗来部署更多GPU,但受限于数据中心单机柜的功耗天花板,单机柜GPU密度提升存在瓶颈。另外一种则是采用光互连技术,通过增加机柜数量构建超节点,突破传统互连方式下超节点的物理限制。相比铜缆,光缆的远距离传输优势可实现交付与机柜解耦。

  尽管光互连技术优势明显,但在实际应用中仍面临功耗、成本和可靠性的挑战。为此,业界正在向更高集成度的光学产品演进。首先是可插拔光模块,它的问题是光电转换芯片往往会离GPU距离比较远,信号完整性、损耗与延迟都会成为挑战。而超节点需要我们提升单通道互连带宽,还要提升通道的密度和数量,这就催生新的光电融合技术——近封装光学。它将光电转换芯片从交换机下放到 GPU 板卡后,传输距离从 1 米缩短至 10 厘米,互连密度提高 2-3 倍,还可去除 DSP 芯片,大幅减少 GPU 间的通讯延迟。近封装光学是目前已批量落地的互连方案。

  下一阶段的核心技术是共封装光学(Co-Packaged Optics,CPO)。CPO 是一种将光引擎与计算或交换芯片通过先进封装技术集成在同一基板上的光电融合技术。传统光模块通过铜线与芯片连接,存在路径长、损耗大的问题;CPO 将光引擎与主芯片共封装后,电信号传输距离从厘米级缩短至毫米级,可大幅减少信号损耗与延迟。

  WAIC 2025 期间,曦智科技联合燧原科技推出国内首款 xPU-CPO 光电共封装原型系统。该系统通过将光学引擎与计算芯片(xPU)在基板上实现光电共封装,缩短了电芯片与光芯片的传输距离。与传统可插拔光学方案相比,其显著提升了信号完整性,降低了损耗和延迟,同时大幅降低系统功耗,有效提高光电转换的稳定性。

中国首条算力光轨通车!国内首个分布式光互连光交换超节点发布(图1)

  沈亦晨博士表示,该光电共封装原型系统是全球范围内首次实现的相关技术 demo。在这个 demo 中,GPU 芯片通过短距 Serdes(1 毫米),直接以共封装方式在 GPU 上完成电信号到光信号的转换并直出。作为国内首次采用 CPO 技术实现 GPU 直接出光的成功案例,该项目验证了 xPU-CPO 光电共封装技术的可行性与技术方向,同时为中国人工智能基础设施建设与先进光学封装产业突破奠定了关键技术锚点。

  他进一步介绍:“最终光互连方式应该是光芯片和电芯片在同一颗芯片,我们叫3D共封装方案。通过这种方式,可以比现在互连方式再提高1-2个数量级互连带宽。我们的目标是通过近封装、共封装、3D共封装的方式将单芯片带宽提升至 2000GB/s。同时,通过采用光互连取代电互连,将超节点单节点内的 GPU 数量从 8 颗提升至 500 颗。两者叠加后,超节点的总带宽可比现阶段的单机 8 卡提高 3 个数量级。”

  WAIC 2025 上,曦智科技与沐曦合作的光互连电交换超节点方案首次公开亮相。该方案采用线性直驱光互连技术,具备低延时、高带宽、低功耗特性,支持长距离传输,突破跨机柜连接限制,可实现 8 台标准服务器共 64 张 xPU 卡的高速互连,为大模型训练及推理提供更灵活、高效的并行策略支持,从而提升集群整体性能。这也是曦智科技重点落地的技术路线之一。

  另一个技术路线便是光跃 LightSphere X 采用的光互连光交换。沈亦晨博士比喻道:“电交换就像一辆辆小汽车,每个信号都能在电交换机上选择向左或向右传输。但在这种模式下,整个交换容量和速率取决于电交换芯片的运算能力,就像受限于红绿灯的处理能力,在大型超节点网络中容易造成堵塞。此外,不同 GPU 遵循不同协议,每款 GPU 都需定制专用交换芯片以适配互连协议,且电交换芯片依赖先进工艺,这正是目前国内面临的技术困境。”

  通过用光交换替代电交换,信号传输模式实现了从 “公路” 到 “高速铁路” 的升级。为此,曦智科技发布了全球首款基于硅光技术的分布式光交换芯片,这也是光跃 LightSphere X 的底层核心技术之一,相关研究论文已被国际通信网络领域顶级会议 SIGCOMM 2025 收录。

  关于分布式光交换的优势,沈亦晨博士介绍:“在单位互连成本上,由于无需电交换机,直接通过光交换模组实现交换,成本可降至英伟达 NVL72 系Kaiyun统的 31%,且每个 GPU 的使用效率提升 3.37 倍;该技术不受协议限制,所有硅光芯片均可在国内自主生产,摆脱对先进制程的依赖;在冗余机制上,故障 GPU 可在毫秒级时间内切换至正常 GPU,大幅降低冗余带来的成本增加。”

  当光技术将超节点单节点内的 GPU 互连规模从 8 颗拓展至 500 颗,将总带宽提升数个数量级时,这背后不仅是从 “公路” 到 “高速铁路” 的传输革命,更是中国在智算基础设施核心技术领域实现自主突破的重要标志。这些突破不仅为大模型训练与推理注入灵活高效的算力协同能力,更在成本控制、资源利用率与供应链安全上构建起独特优势,为人工智能产业的规模化发展铺就了更坚实的光互连 “高速路”,也预示着一个以光为核、高效协同的超节点新时代正加速到来。

相关新闻
最新产品
在线客服
联系方式

热线电话

13928851055

上班时间

周一到周五

公司电话

13928851055

二维码
线