服务热线:

13928851055

KAIYUN科技 | 大数据与人工智能 基础软件领导者

赋能数据未来,引领AI与大数据创新

KAIYUN(中国大陆)官方网站-创造最伟大的开云

行业新闻

实战|打破“算力焦虑”邮储银行千卡集群建设实践

作者:小编 点击: 发布时间:2025-06-06 09:53

  2024年11月,中国人民银行、国家金融监督管理总局等七部门联合印发《推动数字金融高质量发展行动方案》,从系统推进金融机构数字化转型、运用数字技术提升重点领域金融服务质效、夯实数字金融发展基础、完善数字金融治理体系、做好统筹协调和组织保障五个方面作出部署。中国邮政储蓄银行(以下简称“邮储银行”)全面领悟中央金融工作会议精神,认真贯彻落实金融管理部门有关金融科技发展规划部署,深化金融科技赋能,提升金融服务水平,为数字金融高质量发展提供支撑。

  作为国有大型商业银行,邮储银行在本行“十四五”IT规划的引领下,持续深入推进智慧、平台、体验、生态、数字化和协同“SPEEDS”科技战略的扎实落地,将人工智能技术深度融入金融业务全链条,以数字化转型驱动高质量发展。人工智能时代的竞争不仅是算法和应用的竞争,更是算力基础设施的竞争。为此,邮储银行采用业界领先的算网协同架构,打造千卡规模的信创算力集群。一方面,千卡集群作为AI技术发展的核心基础设施,为研发助手、智能营销、代码生成、智能问数等大模型提供底层算力支撑,推动AI从感知洞察向生成创造跃迁。另一方面,整合全行分散算力资源,建设行级AI资源中枢,完成从“单机单卡”到“大规模集群”的规模化升级,打造科技赋能业务的战略支点。本项目建设聚焦五大关键技术进行突破。

  ➢面向AI训推服务的分布式组网架构,构建安全隔离的智能网络体系,支撑大规模并行训练和推理的规模部署;

  ➢动态负载均衡,采用并优化RoCE网络,确保千卡集群算力线性度达到领先水平;

  邮储银行“千卡集群”云化建设以构建智能化、弹性化的AI算力底座为核心目标,通过技术创新与实践结合,打造金融行业领先的算力基础设施。目前,已支撑20余个场景落地,日均处理百万级服务调用,成为驱动行内业务数字化转型的核心引擎。

  邮储银行分布式云网基于Spine-Leaf全分布式架构,构建了高性能、高弹性、高安全的网络底座,全面支撑AI智算云与金融业务的深度融合,其具备五大优势。一是分层架构实现安全高效协同,网络划分为管理、业务、存储、智算四大区域,通过三平面隔离+防火墙保障金融级安全;Spine-Leaf无阻塞组网结合SDN编排,支撑高并发实时交易与千卡AI训练,AZ级弹性适配多场景资源调度。二是RoCE技术打造AI极致算力,参数面部署200G RoCE无损FullMesh,千卡算力线G直连NPU集群,样本面独立加载防存储争抢,智能负载均衡优化延迟至微秒级。三是弹性扩展支撑业务快速增长,采用分阶段扩展策略,一期部署12台Spine支持64节点,二期新增Leaf至128台,无损升级保障业务连续;虚拟化AZ与裸金属AZ混合部署,实现资源池化调度。四是全域安全与智能运维,带外管理+传输加密双重防护,分布式存储+细粒度权限控全链路安全;SDN集中管控策略,智能监控分钟级定位故障,显著降低运维成本。五是金融级可靠与集约化效益,日均百万级调用无隐患,AI资源利用率显著提升,加速20+场景应用规模部署,提供高可靠低成本金融智算范式。

实战|打破“算力焦虑”邮储银行千卡集群建设实践(图1)

  基于不同业务数据及算力隔离是安全生产的前提,同时具备高效的算力扩缩容管理是保障业务韧性、提升资源利用率的核心手段。邮储银行在建设中,数据隔离通过分布式存储架构、加密技术及细粒度权限控制,确保不同业务或租户的数据在存储、传输和计算过程中完全独立。计算资源与存储资源的解耦设计,使得数据能够在不同计算实例间动态挂载与卸载,既保障了数据的安全性,又避免了资源伸缩过程中可能引发的数据泄露或混用问题。算力隔离则依托硬件虚拟化技术和容器化资源配额管理,将物理资源划分为多个逻辑资源池,为不同业务分配独立的计算资源,防止争抢。通过实时监控系统负载,结合智能调度算法,可动态调整资源分配策略,在业务高峰时快速扩容以保障性能,在业务低谷时自动缩容以降低成本。

  邮储银行AI算力管理平台采用云原生OpenStack平台,结合Kubernetes容器集群管理,构建了灵活弹性的AI基础设施资源管理体系。通过统一管理计算、存储、网络资源,平台屏蔽了底层硬件差异对任务调度的影响,为AI任务提供资源调度、部署运行及扩缩容等核心功能。在此基础上,平台创新引入裸金属容器部署模式,充分发挥裸机的高性能优势,避免了虚拟化层的性能开销,同时通过容器化技术实现大模型的轻量化部署与快速弹性伸缩,特别适用于对计算性能要求极高的AI训练与推理场景,能够充分发挥GPU/NPU等硬件加速能力,做到低延迟、高吞吐。通过Kubernetes对裸金属容器的统一编排,平台实现了资源的动态调度与高效利用,既保留了裸金属服务器的性能优势,又兼具容器化部署的灵活性与敏捷性,为邮储银行的AI任务提供了高性能与高弹性的基础设施支撑,全面赋能金融业务的智能化转型与创新升级。

  邮储银行通过引入APIC技术,构建了高效、安全的API接口服务体系,并依托动态负载均衡机制实现了AI算力资源的智能调度。该技术通过Kaiyun官方网站统一API网关管理,支持内部网至服务网的跨网API发布,集成SSL/TLS加密、OAuth认证及黑白名单策略,确保金融级数据安全;同时支持快速封装自定义函数及数据库标准查询接口,满足业务敏捷性需求。在动态负载均衡方面,APIC基于实时监控后端容器节点的负载状态,结合智能路由算法动态选择最优节点处理请求,并通过与Kubernetes深度集成的水平自动扩缩容机制,在流量峰值时自动扩容容器实例,实现毫秒级资源弹性。在AI训练场景中,用户上传代码与数据至OBS后,APIC依据资源池负载动态分配任务至空闲节点,任务完成后自动释放资源;推理服务则通过实时分析节点状态优先调度至低延迟实例,结合容器快速拉起能力保障业务连续性。此外,APIC内置流量控制与故障熔断功能,当节点异常时自动切换至健康实例并触发重建,确保服务高可用。该方案通过API服务与负载均衡的深度融合,显著提升了资源利用率与业务响应效率,助力金融智能化转型。

  邮储银行构建了覆盖计算、网络、存储的全域智能运维体系,实现硬件故障秒级隔离与算力动态迁移。

  通过跨域监控能力对设备全量纳管,构建器件级、模块级、设备级的数字化地图。训练任务启动前,平台主动筛查隐患,确保“零隐患”启动作业;训练中实时检测400余类故障,并实现1分钟感知、3分钟定位,精准隔离故障域。

  针对NPU等硬件设备,采用L1-L6六级故障分层策略:L1-L2级预警记录,L3-L5级通过带内复位快速恢复,L6级触发容器自动退出并由Kubernetes重建实例,实现业务无感切换。训练场景中,任务自动保存检查点并迁移至健康节点;推理场景通过多实例部署与容器快速拉起,保障服务毫秒级恢复。

  集成时序分析、机器学习等预测模型,提前识别亚健康模块,动态优化资源分配。通过“带内巡检+带外告警”双通道机制,覆盖从软件异常到硬件失效的全栈风险。

  截至目前,邮储银行累计消除80余项隐患,大模型训练中断时间降低90%,有效算力释放效率提升35%,集群可用性达99.99%,单故障恢复时间≤5分钟。该方案以“智能预测-精准隔离-弹性恢复”闭环,推动金融AI运维从“被动响应”向“主动自智”转型,为行业提供了高可用算力集群的范本,加速金融业务智能化升级。

  算力筑基,模型扩界。随着算力管理平台的全面建成,邮储银行已构建起覆盖昇腾等国产AI加速卡的训推一体算力集群,通过云原生技术与无损网络实现参数面互联互通,为大规模模型训练与推理提供高效算力支撑。当前已完成包括DeepSeek V3/R1等众多大模型私有化部署。通过操作系统内核优化和推理加速库两条路径,对大模型吞吐性能进行优化并取得显著成果。同时,基于平台功能、业务发展、模型迭代等因素,邮储银行运营数据中心通过不断探索和实践,逐步形成了一套算力交付及运营的成熟经验,资源得到合理化分配,算力被充分调度使用。

  独行者速,众行者远。在金融数字化转型进程中,邮储银行始终积极面对各类挑战,瞄准金融行业特点,聚焦金融应用需求,努力积累经验,为行业发展提供一些思路和借鉴。未来,邮储银行将持续深化与更多生态伙伴的合作,以数智赋能,蹄疾步稳地探索金融与AI的融合之道,不断丰富金融行业解决方案,为金融业朝着更安全、更智能的方向发展贡献邮储银行力量。

相关新闻
最新产品
在线客服
联系方式

热线电话

13928851055

上班时间

周一到周五

公司电话

13928851055

二维码
线