□本报全媒体记者 王冰珂
3月13日,记者从曙光信息产业股份有限公司(以下简称“中科曙光”)获悉,位于郑州的国家超算互联网核心节点工程已部署scaleFabric,支撑3套万卡级scaleX智算集群上线运行,总规模达3万卡。
得益于这条“算力大动脉”,今年2月以来,该节点工程已吸引来自高校、科研院所、企业的超3000位用户积极参与测试,已成功为智谱、讯飞等多家一线AI模型厂商,提供了从系统环境部署、数据安全隔离,到大规模训练调试与推理验证的关键环节支撑。
日前,中科曙光宣布实现国产高端原生RDMA技术重大突破,正式发布首款全栈自研400G无损高速网络——scaleFabric。
RDMA(远程直接内存访问)是一种允许数据直接从一台计算机的内存传输到另一台计算机,无需操作系统内核和CPU介入的网络技术,其核心在于零拷贝和内核旁路,可极大提升通信效率,已成为算力中心的基本需求。
据介绍,scaleFabric基于原生RDMA架构,从底层硬件设备到上层的管理软件实现100%自主研发,填补了国内数据中心高速网络领域的空白,为超大规模智算集群铺就了一条高带宽、低时延、真无损、超可靠的“算力大动脉”。
随着AI大模型训练与高通量推理计算需求规模持续扩大,万卡级乃至更大规模的算力集群正成为主流形态。在大规模分布式训练中,网络通信耗时占比已达30%—50%,直接影响算力系统的整体效率。
长期以来,相关产业链基本被海外厂商垄断。随着AI算力需求快速增长及数据中心网络持续演进,自主高性能RDMA网络正成为产业关注焦点。中国工程院院士邬贺铨介绍,高速网络作为算力基础设施的关键核心技术,其自主可控性直接关系到国家算力基础设施的安全与发展质量。
作为国内首款原生无损RDMA高速网络,scaleFabric面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。
此次发布的scaleFabric400系列网络产品技术规格全面对标英伟达NDR,部分指标实现赶超。性能方面,网卡端到端通信时延低至0.9微秒,可充分满足万卡级AI训练集群的极致需求;稳定性与扩展能力上,链路故障恢复时间小于1毫秒,已支撑近万卡集群持续稳定运行验证超10个月。
中科曙光高级副总裁李斌表示,随着产品在超大规模智算集群中的落地应用,国产原生RDMA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态也正在加速形成。这意味着,我国在智算互联这一关键环节开始形成自主技术路径,补齐我国智算基础设施中的关键一环。