DPU部署实践: 使能数据中心新架构
9月初,星云智联参加了第二届SmartNIC& DPU技术创新峰会。并在业界首次提出数据中心需要增加“互联数据处理层”的理念。产品线副总裁兼市场总监马国强先生在会上发表了主题演讲《DPU部署实践: 使能数据中心新架构》,从市场、架构、技术和产品四个方面进行了分享。
市场
DPU起源于大型云服务市场,但是不会仅用于这个市场,而是会向大型政企、中小SP和中小企业等市场辐射。
DPU从中心云场景孵化,但是应用场景是多样化的。比如:
-
高性能计算、AI训练、大数据场景:通过DPU加速多个部件的协同效率;
-
边缘云场景,可以用DPU提升单位空间算力,并简化管理、提升安全;
-
机器视觉质检场景、生物医药数据实时处理等场景:通过DPU提升边缘计算性能,对海量数据进行实时处理。
总之,DPU的市场和场景是广泛多样的,不限于公有云。DPU用于提升应用性能、资源利用率、运维效率,DPU未来可期。
架构
因为数据的快速增长,数据中心在算力、能耗、碳排放上面临三大挑战。
1)数据:根据IDC预测,2021~2025年全球数据CAGR 23%,2025年的数据是2020年的3倍。
2)CPU处理性能:近10年提升相对缓慢。2015年以来CAGR 3.5%左右。这样就形成一个矛盾,CPU处理能力不能满足数据的快速增长需求。
3)电耗:据预测,2030年数据中心将消耗全球6%的电能。而2020年只有1.5%,增长4倍。
4)碳排放:服务器80%的碳排放发生在使用环节,这与手机/PC正好相反。为了更好地实现国家的双碳目标,需要在服务器使用环节降低碳排放。
这些挑战都在推动数据中心采用新的架构,从而实现高算力、低能耗、低碳的目标。
数据中心将演进到以DPU为中心的CDI (Composable Disaggregated Infrastructure)架构,新增互联数据处理层,即通过DPU实现硬件资源解耦。

1)物理架构:如图所示,不同资源相互解耦,并通过DPU互联网络进行连接。这种架构可以更好地实现硬件加速、计算和存储资源scale-out、统一运维。当前DPU互联网络,能够满足10us内时延要求。所以,GPU服务器、硬件加速器服务器、SSD存储、HDD存储等都已经具备解耦条件。而内存、SCM存储器时延要求高,相关技术还在发展中。
2)逻辑架构:需要增加了一个“互联数据处理层”。这一层完成三个核心目标:
-
提升单位能耗的性能,通过硬件加速网络、存储、安全、虚拟化、应用等。解决数据快速增长与CPU计算能力不足的矛盾。
-
资源池化,提升利用率和访问效率。举两个例子:如用AI集群对证券行情进行分析和预测,生成交易策略。有的租户算法CPU需要很多、GPU很少;而有的正好相反。如果没有资源池化就比较难解决,从而造成浪费。还有一个客户做云服务,在服务器CPU核都租出去后,内存和SSD有30%左右碎片无法出租。通过更大的资源池化,能够大大缓解这类浪费问题。
-
提升运维效率。通过虚拟化、开放性简化运维,提升人均运维效率。
要完成这三个目标,对于DPU有四点关键要求:
-
性能:具备高带宽、低时延、支持无丢包转发。
-
协议:支持高效的传输协议。比如当前的RDMA,以及未来更高效的协议
-
资源虚拟化
-
开放性:因为互联数据处理层承上启下,外部接口很多,且快速演进。
DPU是多技术路线组合、多形态的解决方案,不只是SoC芯片。其最核心的是高性能可编程数据面。

技术
DPU基于流表转发,星云智联精心设计了高性能流表。主要有四方面技术创新:
-
专属流表存储器和大流表:通过专用存储器,支持>=1M可扩展流表,减少流表换入换出
-
专属硬件流表访问通道:Pipeline直接访问流表资源,不经过PCIe总线
-
硬件高速匹配算法:从Key到Value硬件一跳直达,实现高性能查找
-
硬件支持全流统计+指定流统计,便于运维。
通过实际对比测试,星云智联DPU转发性能不随流的增加而变化,保持稳定转发。而采用传统设计的产品,在40K条流以后,转发能力快速下降。
另外星云智联DPU通过硬件4级层次化Qos设计,用户可对端口、用户、业务、子业务等进行精细化流量管理。

传统RoCE部署存在一些困难,如组网规模小、丢包敏感、稳定性低、需要交换机硬件更换、配置复杂、可扩展性不高等。
星云智联通过自研拥塞控制算法 NBL-CC(Congestion Control)、选择性重传协议:NBL-SRP(Selective Retransmission Protocol),解决了这6大问题。并从规模、稳定性、易用性、效率、容错性、性价比6大方面进行全面提升,实现了“即插即用”。
软件虚拟化、硬件虚拟化直通两个方案不能兼顾高性能和灵活性。星云智联DPU通过vDPA (Virtio Data Path Acceleration)方案解决这个两难问题。为了提升效率,星云智联DPU进行了工程优化,大幅提升了硬件刷新“dirty page bitmap”的效率。
1)硬件上:
-
已经完成多品牌的服务器和CPU适配测试,更多的适配还在持续进行中;
-
芯片提供可编程数据面,我们称之为ATP(Adaptive Parallel Programmable Pipeline Architecture)。
2)软件上:遵从相关协议和接口,开放与客户、生态伙伴进行合作,
-
业务层:提供ovs-dpdk中各类rep端口设备驱动、数据面与ovs间管道PF的PMD驱动、流表卸载Agent;SPDK上设备控制面驱动等;
-
管理运维层:提供openstack网络二三层插件驱动、存储插件驱动;Kubernetes中CNI/CSI插件;DPU上的BMC等。
总之,星云智联聚焦在高性能可编程数据面和资源虚拟化,其它方面通过开放,融入当前的生态系统。
产品
星云智联DPU产品D1055AS 已于今年7月发布,全场景商用,并实现了明显经济和社会效益。网络:通过硬件卸载,虚拟网络转发性能提升30%以上,CPU负担降低了21%。
存储部分收益更加明显,裸金属上线时间缩短15倍,并且管理更加简单。通过存储池化,存储的利用率提升35%以上,CPU负担降低41%。
综合来看,服务器数量不变情况下,单机架算力提升35%。算力要求不变情况下,生命周期TCO降低25%,碳排放减少10以上%。这是25G网络的收益,在未来增长到100G、200G甚至更高的速率后,收益会更加明显。网络速率越高,DPU的收益越明显。
除了DPU产品,星云智联还向下覆盖智能网卡产品。当前已商用的产品包含4x10G光口、4x10G电口、2x10G光口等。另外,2x25G正在开发中。相对于大家常用的智能网卡,星云智联的智能网卡具备很强的硬件可编程性,能够支持复杂场景的硬件加速。
目前,我们重点投入在芯片的开发中。2023年推出支持2x100G的18120芯片和2x25G的18105芯片。更高速率、更低时延、更强功能的芯片,也将持续推出。