DPU的排列方式,用于数据处理的协处理器



用于特定领域的专用ASIC是“重新启动”摩尔定律并克服通用CPU限制的一种方法。现在这是微电子发展的非常有前景的领域。 Google,Amazon和其他公司都有自己的项目。例如,谷歌制造Google TPU Tensor Processors ,而亚马逊数据中心在ARM内核上运行AWS Graviton芯片



前者是用于神经网络的ASIC,而后者是用于在计算密集型工作负载中优化性价比的通用64位ARM。



最近正在进行积极试验的另一类通用ASIC是用于数据处理的专用协处理器(数据处理单元,DPU),一种智能网卡(SmartNIC)。该物种的一些例子是Nvidia BlueField 2,Fungible和Pensando DSC-25。



他们像什么?它们适合什么任务?让我们来看看。





什么是SmartNIC



常规的网卡(NIC)构建在专用集成电路(ASIC)上,该集成电路设计为用作以太网控制器。通常,这些微电路被设计为执行辅助功能。例如,Mellanox ConnectX控制器还支持高速Infiniband协议。这些都是出色的专用芯片,但是其功能无法更改。



与简单的网卡不同,SmartNIC允许用户在购买硬件之后将其他软件下载到控制器。这扩展或改变了ASIC的功能。该过程有点类似于购买智能手机并在其上安装各种应用程序。



为了实现这一点,与传统的NIC相比,SmartNIC需要更多的处理能力和更多的内存。我们正在谈论更强大的多核ARM处理器,专用网络处理器(流处理内核,FPC)和现场可编程门阵列(FPGA)的安装。





Xilinx Alveo U25



示意图SmartNIC通常具有用于控制层的单独的ARM内核,某些板允许加载修改后的Linux内核。这些专用的ARM内核在其他计算模块上分配负载,收集统计信息和日志,并监视SmartNIC的状态。直接网络流量不会通过它们。



DPU适合执行哪些任务?



数据协处理器(DPU)是SmartNIC的典型扩展,添加了NVMe或基于结构的NVMe(NVMe-oF)功能。这样的板可让您卸载中央处理器,接管所有I / O任务。



例如,考虑Broadcom NetXtreme-S BCM58800微控制器的SmartNIC设备。它可用作可编程网卡并支持(NVMe-oF)。





基于BCM58800微控制器的Broadcom Stingray卡的体系结构



Broadcom Stingray具有3 GHz的八个ARM v8 A72内核,可以说是任何SmartNIC上所有ARM的最高时钟速度。网卡最多可配备16GB DDR4内存。硬件级别支持高达90 Gbps的加密,并且支持某些数据处理功能:重复数据删除,可删除RAID 5和RAID 6



编码。该图还显示了TruFlow加速器。它是Broadcom专有技术,用于网络操作的硬件加速,包括Open vSwitch(OvS)等。



Nvidia BlueField 2



英伟达传统上一直专注于图形加速器,但今年它完成了以70亿美元收购专业芯片制造商Mellanox的交易,因此它现在正认真地瞄准数据中心高性能计算的新领域。



Mellanox是开发智能网卡的先驱之一,并且以数据处理单元(DPU)形式销售BlueField 2板现在被认为是领先的产品





Nvidia / Mellanox BlueField 2体系结构



关键DPU应用程序:



  • 虚拟和硬件云。
  • 虚拟机中的NVMe存储。
  • 网络功能虚拟化(NFV)应用程序。
  • 信息安全应用程序,如深层数据包检查(DPI)。
  • 用于边缘计算的微服务器




Nvidia / Mellanox BlueField 2



它具有八个ARM v8 A72内核,一个DDR4内存控制器和一个双端口以太网或InfiniBand网络适配器(两个100 Gbps或一个200 Gbps的适配器)的阵列,以及专用的ASIC以加速各种功能:正则表达式,SHA-2哈希等。



彭桑多



PenNICDO是SmartNIC领域中的新创公司之一,它在市场上提供所谓的分布式服务卡,Pensando DSC-25(用于公司服务器)和Pensando DSC-100(用于云提供商)。



Pensando DSC-25和Pensando DSC-100



主要产品是Pensando DSC-25。它是一种带有一个P4(Capri)DPU的卡,用于数据处理,附加的ARM内核和用于所选功能的硬件加速器。





Pensando DSC-25电路



主DPU和ARM内核通过公共互连总线连接到PCIe控制器和RAM阵列(最大4 GB)。

各个硬件加速器在此处称为服务处理卸载。与Mellanox卡一样,它们处理加密,磁盘处理和其他任务。



可替代的





Fungible的高级体系结构



另一个新兴的初创公司Fungible声称它在2016年创造了DPU一词该公司宣布推出名为F1 DPU的处理器,但这些芯片的实际架构尚不清楚。如上图所示,Fungible目前只能演示一般方案。一些专家表示怀疑,Fungible只是在使用炒作术语DPU来吸引风险投资。顺便说一下,已经在各轮投资中投入了5亿美元。



下一步是什么?



最近有很多关于DPU概念的宣传。这篇评论并未提及所有试图进入这一市场的公司(英特尔,赛灵思等)。



事实是SmartNIC概念已经存在很长时间了,像Google和Amazon这样的大公司已经开发并实施了自己的内部解决方案。同时,形成了一个由第三方参与者填补的市场。



第二代基于FPGA的SmartNIC现在正在兴起。用户可编程门阵列技术已经成熟到可以成为SmartNIC的基础技术的程度。十年前,图形加速器在市场上泛滥成灾-这是硬件加速技术的第一个重要浪潮。现在,FPGA已经超过了三百万个逻辑块标记,这些芯片已经与其他构建模块紧密集成,用于处理网络流量,内存,存储和计算核心。 SmartNIC和FPGA技术可以完美互补。



在这种背景下,可以期待第二波硬件加速器。然后将第三个元素添加到CPU + GPU集-DPU。数据协处理器将服务器处理器从基础架构任务中解放出来。研究表明,在高度虚拟化的环境中,诸如OvS事务之类的网络进程会占用主机上超过30%的CPU时间。想象一下在单独的模块中完成的磁盘操作,加密,DPI和复杂的路由。这可能会从CPU中删除很大一部分负载。

诸如Pensando和Fungible之类的初创公司以其创新技术面对着诸如Xilinx,Intel,Broadcom和Nvidia之类的技术领导者。这是一项技术比赛,总是很有趣。



All Articles