3月12日,中科曙光在郑州宣布实现国产高端原生RD­MA技术重大突破,正式发布首款全栈自研400G无损高速网络——sc­a­l­e­F­a­b­r­ic。[淘股吧]



据了解,中科曙光sc­a­l­e­F­a­b­r­ic是首款国产全栈自研IB网络产品。


在大规模智算集群领域,RD­MA(远程直接内存访问)网络已成为算力中心的基本需求。中科曙光sc­a­l­e­F­a­b­r­ic是基于原生RD­MA架构,从底层的112G Se­r­D­es IP、硬件设备到上层的管理软件实现100%自主研发,突破了海外在高端原生RD­MA网络的技术垄断。


中国工程院院士邬贺铨表示,高速网络作为算力基础设施的核心关键技术,其自主可控性直接关系到国家算力基础设施的安全与发展质量。在大模型训练和智算集群规模化部署背景下,网络需要同时具备超低延迟、超高带宽与无损传输能力,而RD­MA高速网络正是智算集群的“算力大动脉”。


目前In­f­i­n­i­B­a­nd和Ro­CE是市场主流的高速网络技术方案。其中In­f­i­n­i­B­a­nd凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统采用In­f­i­n­i­B­a­nd网络架构。


中科曙光sc­a­l­e­F­a­b­r­ic采用In­f­i­n­i­B­a­nd原生RD­MA路线,而非Ro­CE路线。对此,中科曙光表示,In­f­i­n­i­B­a­nd的技术路线在AI/HPC中有不可替代的优势,是真正的无损网络,而无损的特性对RD­MA性能的发挥具有优势,便于其更好对网络进行管理


中科曙光高速网络互联产品部总工程师万伟表示,sc­a­l­e­F­a­b­r­ic的核心是自主研发的两颗高速网络芯片。其中sc­a­l­e­F­a­b­r­ic400网卡芯片做到了400G高带宽,采用自研的RD­MA引擎;sc­a­l­e­F­a­b­r­ic400交换芯片实现了64T双向交换容量,采用VCT交换机式,转发延时可以低至260纳秒。


此外,sc­a­l­e­F­a­b­r­ic交换机端口密度做到了80口400G,与英伟达NDR 64口交换机相比,端口密度提升了25%,这使得sc­a­l­e­F­a­b­r­ic的组网成本得到大幅的降低。同时,单卡最大QP数支持为256K,相比英伟达NDR提升100%,单子网互连规模是传统IB的2.33倍,可轻松支持最大11.4万卡集群部署,同时网络总成本可降低30%。


“实测数据来看,sc­a­l­e­F­a­b­r­ic基本上都能做到和英伟达NDR相当的水平,部分数据甚至优于NDR系列,两款芯片技术规格全面对标了英伟达当前主力量产的NDR产品。”万伟如是称。


在与现有IB网络的兼容方面,据介绍,sc­a­l­e­F­a­b­r­ic提供原生的接口,可全面兼容各种通信库,实现无缝兼容各种HPC和AI的应用,各类大模型训练都可以在不改代码的情况下,直接迁移到基于sc­a­l­e­F­a­b­r­ic的系统。同时,在网络管理和维护方式上,也兼容了IB用户的使用惯。


对国产算力硬件的兼容上,中科曙光高级副总裁李斌接受《科创板日报》记者等媒体采访表示,过去sc­a­l­e­F­a­b­r­ic已经对不同的计算芯片进行了互联适配,未来会探索更高效的方式,比如计算芯片通过专有的协同连接到网卡,另外还在生态内推动芯片互联协议的共享,探索与其他厂商芯片更高效的芯片直通。


在实际应用层面,sc­a­l­e­F­a­b­r­ic目前已部署在位于郑州的国家超算互联网核心节点,支撑三套万卡级sc­a­l­eX智算集群上线运行,总规模达3万卡。


李斌表示,随着产品在超大规模智算集群中的落地应用,国产原生RD­MA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态正在加速形成。


随着此次首款国产全栈自研IB网络产品的发布,中科曙光联合、联想开天、中兴通讯达梦数据、欧瑞科斯、乐讯科技、九章云极等产业合作方,成立光合组织高性能计算专委会AI­DC高速网络工作组。


曙光信息产业(北京)有限公司副总裁李柳表示,“sc­a­l­e­F­a­b­r­ic技术推出后,未来还要依靠标准化的组织,以开放的姿态联合更多的国内合作伙伴,从AI数据中心、加速芯片到网络设备、AI框架等多个环节,推动产业协同创新,构建AI网络生态。”


【对标英伟达的国产“算力动脉”来了!中科曙光发布首款全栈自研IB网络产品 已实现万卡级智算集群支持】3月12日,中科曙光在郑州宣布实现国产高端原生RD­MA技术重大突破,正式发布首款全栈自研400G无损高速网络——sc­a­l­e­F­a­b­r­ic。据了解,中科曙光sc­a­l­e­F­a­b­r­ic是首款国产全栈自研IB网络产品。在大规模智算集群领域,RD­MA(远程直接内存访问)网络已成为算力中心的基本需求。中科曙光sc­a­l­e­F­a­b­r­ic是基于原生RD­MA架构,从底层的112G Se­r­D­es IP、硬件设备到上层的管理软件实现100%自主研发,突破了海外在高端原生RD­MA网络的技术垄断。


性能方面,据称,sc­a­l­e­F­a­b­r­ic400系列网络产品技术规格实现全面对标英伟达NDR产品。sc­a­l­e­F­a­b­r­ic的核心是自主研发的两颗高速网络芯片。其中sc­a­l­e­F­a­b­r­ic400网卡芯片做到了400G高带宽,采用自研的RD­MA引擎;sc­a­l­e­F­a­b­r­ic400交换芯片实现了64T双向交换容量,采用VCT交换机式,转发延时可以低至260纳秒。sc­a­l­e­F­a­b­r­ic交换机端口密度做到了80口400G,与英伟达NDR 64口交换机相比,端口密度提升了25%,这使得sc­a­l­e­F­a­b­r­ic的组网成本得到大幅的降低。同时,单卡最大QP数支持为256K,相比英伟达NDR提升100%,单子网互连规模是传统IB的2.33倍,可轻松支持最大11.4万卡集群部署,同时网络总成本可降低30%。(财联社)