TRNIC:基于三重表位图的高性能RDMA网卡,实现多路径传输中乱序包高效重排序
《IEICE Transactions on Communications》:TRNIC: A high-performance RDMA NIC with triple-table bitmap for efficient out-of-order packet reordering in multipath transmission
【字体:
大
中
小
】
时间:2025年12月01日
来源:IEICE Transactions on Communications 0.6
编辑推荐:
本文针对RoCEv2在多路径传输中因乱序包导致的吞吐量下降问题,提出了一种名为TRNIC的高性能RDMA网卡设计。该研究创新性地采用三重表位图结构进行乱序包跟踪,实现了O(1)复杂度的冲突检测和O(3√p)的资源开销。实验结果表明,TRNIC在乱序条件下可实现约97Gbps的RDMA读写吞吐量,显著优于Mellanox CX5和Xilinx ERNIC,为数据中心网络的高性能互连提供了重要解决方案。
在当今的数字时代,数据中心已成为信息存储和处理的关键基础设施,面临着海量数据快速传输和处理的巨大挑战。远程直接内存访问(RDMA)技术通过实现跨网络的直接内存访问并将传输层操作卸载到网卡(NIC)上,显著降低了中央处理器(CPU)开销,成为应对这些挑战的关键技术。其中,基于融合以太网的RDMA第二版(RoCEv2)因其低延迟、高吞吐量以及与以太网的良好兼容性,在数据中心网络(DCN)中得到了广泛应用。
然而,尽管数据中心网络设计了丰富的路径多样性以最大化聚合吞吐量,但由于当前RDMA网卡(RNIC)片上内存的限制,标准RDMA传输通常只使用可用路径的有限子集。这导致数据中心架构中固有的并行传输能力未被充分利用,造成带宽效率低下和系统可扩展性受限。为了更好利用数据中心中的并行性,多路径传输技术被提出,但它引入了乱序(OoO)包交付的挑战,这是由于异构路径延迟和网络交换机中的动态排队造成的。
现有RDMA实现对包重排序高度敏感,当检测到乱序包时,系统通常会触发回退N(GBN)重传机制,重新发送整个未完成的传输窗口。这严重降低了吞吐量并增加了端到端延迟。实证研究表明,在大规模数据中心网络中,细粒度的负载均衡方案(如包喷洒或过小的流片段)很容易引入包重排序。SACK-RoCE等研究进一步证明,随着乱序率的增加,RDMA吞吐量急剧下降。ConWeave量化了乱序对RDMA的影响,表明即使适度的重排序也会在GBN下触发过度重传,严重降低吞吐量和流完成时间(FCT)。这些结果确立了乱序成为多路径数据中心网络中一个实际且紧迫的瓶颈问题。
为了克服这些限制,TRNIC被提出作为一种创新的解决方案。这项发表在《IEICE Transactions on Communications》上的研究,旨在通过优化的位图设计实现快速高效的包重排序。TRNIC采用三重表结构实现位图共享和内存效率,使用数组结构实现高效随机访问,并在单个队列对(QP)内支持并发工作队列元素(WQE)的调度隔离。
研究人员在FPGA平台上实现了TRNIC原型,通过三重表位图管理架构实现了高效的乱序包跟踪。该系统采用共享位图池设计,将位图资源划分为固定大小的块,动态分配给活跃连接。位图管理分为三个层次:连接位图(静态表,按QPID索引)、段位图(动态表,按位图段ID索引)和区块位图(动态表,按位图区块ID索引)。这种设计确保了O(1)复杂度的乱序冲突检测性能。同时,TRNIC支持IPv6扩展头中嵌入远程地址的直接写入方案,使接收端NIC能够无视包到达顺序直接执行DMA操作。针对单QP内多WQE并发可能导致的位图不连续问题,TRNIC引入了FENCE机制,确保调度隔离和位图完整性。
实验结果表明,TRNIC在乱序条件下实现了接近97Gbps的RDMA读取/写入吞吐量,与有序传输的性能相当。与Mellanox CX5和Xilinx ERNIC相比,TRNIC显著改善了乱序条件下的RDMA吞吐量,并大大降低了流完成时间。在资源利用率方面,TRNIC的三重表位图设计使其资源开销与带宽延迟积(BDP)呈O(3√p)关系,相比ORNIC的O(√p)有了显著改善。具体而言,TRNIC的位图资源增长率随RTT增加降低了35%-40%。
在系统架构方面,TRNIC硬件实现分为三个主要平面:控制平面(CP)负责QP状态管理和重传管理;发送平面(TXP)负责构建RoCEv2包;接收平面(RXP)处理所有传入包,验证完整性,提取元数据,并更新乱序跟踪状态。位图管理器跟踪传输状态并确保数据完整性,这种架构将数据路径和控制路径解耦,实现了并行处理。
TRNIC的位图状态更新算法通过两级处理确保高效运行:第一部分处理输入检查和确认路径,判断包是否按预期PSN到达,并更新相应状态;第二部分处理乱序和初始化情况,根据包是否为最后一个包以及QP有效性标志来更新位图状态。这种精细的状态管理机制确保了在各种网络条件下都能保持高效的包处理性能。
在性能评估方面,TRNIC在多种乱序率和乱序距离条件下均表现出色。与基于链表的MELO+、LEFT和LEFT+方案相比,TRNIC和ORNIC保持了恒定的访问复杂度O(1),而链表结构的方案则随着乱序率和距离的增加,处理延迟显著增加。在资源消耗方面,TRNIC和ORNIC能够主动释放已完成的位图区块,而链表方案在丢包场景下可能保持所有已分配的区块,导致资源利用率低下。
TRNIC的研究对数据中心网络的高性能互连具有重要意义。它不仅解决了多路径传输中的乱序包处理难题,还通过创新的三重表位图设计实现了资源效率和处理性能的平衡。这一成果为未来高性能计算、人工智能训练和大规模数据中心应用提供了可靠的低延迟、高带宽网络解决方案,推动了RDMA技术在更广泛场景中的应用。随着数据量的持续增长和网络规模的不断扩大,TRNIC所提出的技术路线将为下一代网络架构设计提供重要参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号