DPU部署实践: 使能数据中心新架构

9月初,星云智联参加了第二届SmartNIC& DPU技术创新峰会。并在业界首次提出数据中心需要增加“互联数据处理层”的理念产品线副总裁兼市场总监马国强先生在会上发表了主题演讲《DPU部署实践: 使能数据中心新架构》,从市场、架构、技术和产品四个方面进行了分享。

 

 
 
 

 市场 

 
 
 

01

行业

 

DPU起源于大型云服务市场,但是不会仅用于这个市场,而是会向大型政企、中小SP和中小企业等市场辐射。

02

场景

 

DPU从中心云场景孵化,但是应用场景是多样化的。比如:

  • 高性能计算、AI训练、大数据场景:通过DPU加速多个部件的协同效率;

  • 边缘云场景,可以用DPU提升单位空间算力,并简化管理、提升安全;

  • 机器视觉质检场景、生物医药数据实时处理等场景:通过DPU提升边缘计算性能,对海量数据进行实时处理。

 

总之,DPU的市场和场景是广泛多样的,不限于公有云。DPU用于提升应用性能、资源利用率、运维效率,DPU未来可期。

 

 
 
 

 架构 

 
 
 

01

挑战

 

因为数据的快速增长,数据中心在算力、能耗、碳排放上面临三大挑战。

 

1)数据:根据IDC预测,2021~2025年全球数据CAGR 23%,2025年的数据是2020年的3倍。

2)CPU处理性能:近10年提升相对缓慢。2015年以来CAGR 3.5%左右。这样就形成一个矛盾,CPU处理能力不能满足数据的快速增长需求。

3)电耗:据预测,2030年数据中心将消耗全球6%的电能。而2020年只有1.5%,增长4倍。

4)碳排放:服务器80%的碳排放发生在使用环节,这与手机/PC正好相反。为了更好地实现国家的双碳目标,需要在服务器使用环节降低碳排放。

 

这些挑战都在推动数据中心采用新的架构,从而实现高算力、低能耗、低碳的目标。

 

02

数据中心架构

 

数据中心将演进到以DPU为中心的CDI (Composable Disaggregated Infrastructure)架构,新增互联数据处理层,即通过DPU实现硬件资源解耦。

 

 

1)物理架构:如图所示,不同资源相互解耦,并通过DPU互联网络进行连接。这种架构可以更好地实现硬件加速、计算和存储资源scale-out、统一运维。当前DPU互联网络,能够满足10us内时延要求。所以,GPU服务器、硬件加速器服务器、SSD存储、HDD存储等都已经具备解耦条件。而内存、SCM存储器时延要求高,相关技术还在发展中。

 

2)逻辑架构:需要增加了一个“互联数据处理层”。这一层完成三个核心目标:

  1. 提升单位能耗的性能,通过硬件加速网络、存储、安全、虚拟化、应用等。解决数据快速增长与CPU计算能力不足的矛盾。

  2. 资源池化,提升利用率和访问效率。举两个例子:如用AI集群对证券行情进行分析和预测,生成交易策略。有的租户算法CPU需要很多、GPU很少;而有的正好相反。如果没有资源池化就比较难解决,从而造成浪费。还有一个客户做云服务,在服务器CPU核都租出去后,内存和SSD有30%左右碎片无法出租。通过更大的资源池化,能够大大缓解这类浪费问题。

  3. 提升运维效率。通过虚拟化、开放性简化运维,提升人均运维效率。

 

要完成这三个目标,对于DPU有四点关键要求:

  1. 性能:具备高带宽、低时延、支持无丢包转发。

  2. 协议:支持高效的传输协议。比如当前的RDMA,以及未来更高效的协议

  3. 资源虚拟化

  4. 开放性:因为互联数据处理层承上启下,外部接口很多,且快速演进。

     

03

DPU架构

 

DPU是多技术路线组合、多形态的解决方案,不只是SoC芯片。其最核心的是高性能可编程数据面。

 

 

 
 
 

 技术 

 
 
 

01

数据面:

支持高性能、可编程、硬件4级HQos

 

DPU基于流表转发,星云智联精心设计了高性能流表。主要有四方面技术创新:

 

  1. 专属流表存储器和大流表:通过专用存储器,支持>=1M可扩展流表,减少流表换入换出

  2. 专属硬件流表访问通道:Pipeline直接访问流表资源,不经过PCIe总线

  3. 硬件高速匹配算法:从Key到Value硬件一跳直达,实现高性能查找

  4. 硬件支持全流统计+指定流统计,便于运维。

通过实际对比测试,星云智联DPU转发性能不随流的增加而变化,保持稳定转发。而采用传统设计的产品,在40K条流以后,转发能力快速下降。

 

另外星云智联DPU通过硬件4级层次化Qos设计,用户可对端口、用户、业务、子业务等进行精细化流量管理。

 

02

NBL-RoCE:

业界首个IP网络“即插即用”RDMA方案

 

 

传统RoCE部署存在一些困难,如组网规模小、丢包敏感、稳定性低、需要交换机硬件更换、配置复杂、可扩展性不高等。

 

星云智联通过自研拥塞控制算法 NBL-CC(Congestion Control)、选择性重传协议:NBL-SRP(Selective Retransmission Protocol),解决了这6大问题。并从规模、稳定性、易用性、效率、容错性、性价比6大方面进行全面提升,实现了“即插即用”。

 

03

资源虚拟化:高性能vDPA,

同时支持虚机热迁移和硬件直通转发

 

 

软件虚拟化、硬件虚拟化直通两个方案不能兼顾高性能和灵活性。星云智联DPU通过vDPA (Virtio Data Path Acceleration)方案解决这个两难问题。为了提升效率,星云智联DPU进行了工程优化,大幅提升了硬件刷新“dirty page bitmap”的效率。

 

04

开放性:多层次开放,融入生态,

便于合作伙伴开发行业DPU方案

 

 

1)硬件上:

  • 已经完成多品牌的服务器和CPU适配测试,更多的适配还在持续进行中;

  • 芯片提供可编程数据面,我们称之为ATP(Adaptive Parallel Programmable Pipeline Architecture)。

2)软件上:遵从相关协议和接口,开放与客户、生态伙伴进行合作,

  • 业务层:提供ovs-dpdk中各类rep端口设备驱动、数据面与ovs间管道PF的PMD驱动、流表卸载Agent;SPDK上设备控制面驱动等;

  • 管理运维层:提供openstack网络二三层插件驱动、存储插件驱动;Kubernetes中CNI/CSI插件;DPU上的BMC等。

 

总之,星云智联聚焦在高性能可编程数据面和资源虚拟化,其它方面通过开放,融入当前的生态系统。

 

 
 
 

产品

 
 
 

星云智联DPU产品D1055AS 已于今年7月发布,全场景商用,并实现了明显经济和社会效益。网络:通过硬件卸载,虚拟网络转发性能提升30%以上,CPU负担降低了21%。

 

存储部分收益更加明显,裸金属上线时间缩短15倍,并且管理更加简单。通过存储池化,存储的利用率提升35%以上,CPU负担降低41%。

 

综合来看,服务器数量不变情况下,单机架算力提升35%。算力要求不变情况下,生命周期TCO降低25%,碳排放减少10以上%。这是25G网络的收益,在未来增长到100G、200G甚至更高的速率后,收益会更加明显。网络速率越高,DPU的收益越明显。

 

除了DPU产品,星云智联还向下覆盖智能网卡产品。当前已商用的产品包含4x10G光口、4x10G电口、2x10G光口等。另外,2x25G正在开发中。相对于大家常用的智能网卡,星云智联的智能网卡具备很强的硬件可编程性,能够支持复杂场景的硬件加速。

 

目前,我们重点投入在芯片的开发中。2023年推出支持2x100G的18120芯片和2x25G的18105芯片。更高速率、更低时延、更强功能的芯片,也将持续推出。

 

新闻中心

 

获取星云智联最新动态和新闻资讯