星云智联亮相2023开放数据中心大会,联手移动分享NDMA联合创新项目

 

金秋九月,2023开放数据中心大会在北京国际会议中心开幕。秉承着“开放、创新、合作、共赢”的理念,ODCC已成为数据中心产业发展的重要风向标,汇聚行业先锋力量,共同探讨数据中心各个领域的未来趋势和发展方向。

 
 
 
 

滑动查看更多图片

 

作为国内领先的DPU芯片创新研发企业,星云智联在新技术与测试论坛上介绍了移动研究院NDMA联合创新项目,分享了星云智联NDMA原型技术方案;并亮相展区,展示了公司最新的DPU产品和解决方案。

 

 

星云智联RDMA技术专家王军分享NDMA原型技术方案

 

全球算力需求急剧增加,算力任务的规模越来越大,复杂度越来越高。为解决RDMA的扩展性和长尾延迟问题,NDMA着重于面向网络中的一组节点进行内存直读、直写操作,通过端网协同机制,将应用的通信逻辑下沉到网络,最优化分布式系统传输性能,实现集合通信“一栈直达”,在HPC/AI/存储等多种分布式系统场景都具备明确的应用价值。
 

为此,星云智联NebulaMatrix DPU D1055AS在支持完备的RC/UD服务类型的基础上,新增了NDMA_MC(用于组播和聚播模式)、NDMA_ANYC(用于任播模式)的服务类型,负责建立和维护面向集合通信的传输连接。并区分RC/UD流程,进行了如下等实现。
 

端侧TX流程中,各模块识别QPC内服务类型,TXMR模块会对MR进行宽松地校验,TXM模块会修改报文以携带操作类型标识和通信组标识,统计模块会使用特殊统计ID进行统计。并且逻辑会区分NDMA_MC、NDMA_ANYC,分别确认重传、异常处理等可靠性机制是否启动。
 

转发设备会识别集合通信报文的通信组,完成组播的复制分发,聚播的报文聚合,任播的选路分发,并按需替换报文中的MR信息。
 

端侧RX流程中,各模块识别QPC内服务类型,RXMR模块对于MR进行宽松地校验。(1)NDMA_MC报文,会校验相关的PSN后,进行内存写操作,并触发ACK机制处理。(2)NDMA_ANYC报文,正常收请求包而不校验PSN,并在CQE中指示是IPv4/v6;应用收到CQE后,决定是否回ACK。如需回ACK则从接收Buffer中得到相应IP转发信息,下发NDMA_ANYC的应答WQE用于回复ACK。
 

原型验证中,组播场景基于OSU-benchmark评测MPI通信效率。1对3组播测试下,相比于传统openMPI的方式,NDMA不管是对大消息还是小消息的场景均有显著性能提升,任务完成时间平均降低50%。任播场景基于SPDK评测不同读写比例下的性能。任一节点作为接收节点的测试下,相比于传统应用层任播(带有水平时延)方式,NDMA使得存储IOPS提升45%以上。

 

星云智联在自主可控的基础上,将持续助力中国移动打造安全、稳定、高性能的智算中心基础设施,通过高水平的自主研发,和合作伙伴一起,共同推动NDMA创新解决方案和业务场景在中国移动的落地。

 


 

 

新闻中心

 

获取星云智联最新动态和新闻资讯