现代高速有线收发器技术综述:从电气互联到光接口的演进之路
《IEEE Journal of Solid-State Circuits》:Modern Wireline Transceivers
【字体:
大
中
小
】
时间:2025年12月24日
来源:IEEE Journal of Solid-State Circuits 5.6
编辑推荐:
本文针对数据中心与高性能计算对带宽需求的爆发式增长,系统综述了现代串行链路收发器的架构演进与电路技术。作者团队深入分析了短距离模拟/混合信号与长距离DSP(数字信号处理)两类主流方案,重点探讨了时钟生成、均衡技术(如CTLE、DFE、FFE)和光学接口等核心模块的设计挑战与创新突破。文章指出,通过采用4-PAM(脉冲幅度调制)和先进ADC(模数转换器)/DAC(数模转换器)技术,现代收发器已实现单通道224 Gb/s的超高速传输,为下一代200 Gb/s以上链路的能效提升与信号完整性保障指明了方向。
随着人工智能 workloads(工作负载)与数据密集型应用的爆炸式增长,现代数据中心和高性能计算系统对I/O(输入/输出)带宽的需求正以前所未有的速度攀升。这直接推动着芯片间、板级乃至机架级互联的串行链路数据速率迅猛发展,单通道速率已突破50 Gb/s大关,并向112 Gb/s乃至224 Gb/s迈进。然而,传输速率越高,信号在带宽受限的电气通道(如PCB(印制电路板)走线、电缆)中传输时遭受的损耗与失真就越严重,这表现为严重的码间干扰(ISI),成为制约通信可靠性与距离的关键瓶颈。为了在有限的带宽内传输更多的数据,并克服通道损伤,现代有线收发器(Transceiver)的架构与电路拓扑在过去二十年间经历了深刻的演变,从简单的模拟均衡发展到结合了复杂调制与数字信号处理的混合系统。这篇发表在《IEEE Journal of Solid-State Circuits》上的教程性综述论文,由Tony Chan Carusone等多位资深学者共同撰写,系统梳理了现代有线收发器的核心技术、性能指标、应用场景以及未来发展趋势,为相关领域的研究人员与工程师提供了一份全面的技术指南。
为了系统解决高速串行通信中的信道损耗、码间干扰和时钟同步等问题,研究人员围绕发射机(TX)、接收机(RX)和时钟电路三大核心模块展开了深入探讨。文章比较了针对不同传输距离(如超短距XSR、长距LR)的模拟混合信号与全数字DSP两种架构的优劣。短距离链路倾向于使用功耗效率高的模拟技术(如连续时间线性均衡器CTLE、决策反馈均衡器DFE)来补偿较低的信道损耗(<15 dB),而长距离链路则需要依赖包含高速ADC和DAC的复杂DSP来进行均衡,以补偿超过30 dB的奈奎斯特频率损耗。文章还详细审视了用于数据中心内部互联的光学链路,并深入分析了低抖动、高相位精度的时钟生成与分配技术。最后,展望了支持超过200 Gb/s链路的调制、均衡和纠错技术的未来方向。
本文涉及的关键技术方法主要包括:1) 针对不同信道损耗和应用场景的收发器架构设计(模拟混合信号 vs. DSP-based);2) 关键模拟电路模块的设计,如接收机输入匹配网络(采用T-coil等结构)、CTLE、可变增益放大器(VGA)以及DFE;3) 发射机驱动电路(如CML、SST拓扑)和高速复用器(MUX)设计;4) 基于高速时间交织(TI)SAR ADC和DAC的DSP实现,包括数字前馈均衡(FFE)、DFE以及最大似然序列检测(MLSD);5) 光学接口的驱动器和跨阻放大器(TIA)设计;6) 低抖动锁相环(PLL)、多相位时钟生成(MPG)和相位插值器(PI)等时钟电路技术。
引言
文章开篇即指出高速串行收发器电路是现代数据通信的支柱。图1展示了高性能计算和AI加速器之间的互联场景,以及过去二十年已发表的串行链路数据速率随年份的增长趋势,清晰揭示了指数级增长的态势。随着数据速率提升,通道的带宽限制引入了严重的码间干扰。为应对此挑战,链路调制方式从2级脉冲幅度调制(2-PAM,常称为NRZ)演进到4-PAM,通过每个符号编码2比特,有效将给定数据速率所需的带宽减半。然而,4-PAM对噪声、非线性、ISI和时序抖动更敏感,需要更复杂的收发器设计。
文章明确了衡量收发器性能的关键指标,包括每通道原始数据速率(Gb/s)、误码率(BER)、能量效率(pJ/bit或mW/Gb/s)和带宽密度(Gb/s/mm)。能量效率尤为重要,因为互联功耗在AI训练机和交换机中可能占主导地位。应用场景从芯片间、板级铜互联到背板、电缆链路,再到使用多模光纤的短距光互联和单模光纤的长距光互联,驱动着不同的标准演进(图5),如以太网和PCIe。
模拟/混合信号有线电路
对于信道损耗低于约15 dB的短距离互联,功耗效率高的模拟/混合信号架构是首选。图6和图7分别展示了典型的短距离收发器的接收机和发射机数据路径。
接收机终端:为了在实现阻抗匹配的同时抑制ESD(静电放电)二极管寄生电容对高频回波损耗的影响,常采用无源线圈网络,如桥接T型线圈(图8)或分布式ESD结构(图9),以扩展带宽。
CTLE和VGA电路:连续时间线性均衡器用于提升高频增益以补偿信道损耗。文章介绍了简单的无源RC CTLE(图10, 图11)以及有源CTLE(图13)。有源CTLE通过源极退化电阻和电容引入左半平面零点和极点,实现可编程的增益提升。为了克服负载电容导致的带宽限制,可采用负电容技术(图12)或有源电感负载(图14)。更复杂的架构如跨导-跨阻(TAS-TIS)两级CTLE(图15)提供了更高的灵活性和均衡能力。
决策反馈均衡:DFE是消除后光标ISI的强大混合信号均衡器。文章分析了全速率DFE架构的时序挑战(图16),并介绍了通过时间交织(例如半速率、四分之一速率)和判决推测(图17)来放松时序约束的方法。对于4-PAM,通过约束DFE抽头系数(如h1=0.5h0)可以减少推测所需的比较器数量(图18)。求和技术包括基于CML的电阻求和(图19)和电流积分求和(图20),后者能降低功耗并避免RC建立时间限制。
发射机:发射机驱动拓扑主要有电流模逻辑(CML)和源串联终端(SST)两种(图21)。CML驱动可提供较高的输出摆幅,而SST驱动无需模拟偏置,与CMOS逻辑兼容性好,静态功耗较低。最终的数据串行化是关键挑战,通常采用传输门MUX(图22)或CML MUX(图23)作为最后的4:1复用级。发射机前馈均衡(FFE)通过将驱动分段并与特定抽头关联来实现抽头权重的粗调,并通过调整偏置电流(CML)或结合时钟相位选择与数字移位寄存器来进行细调和实现更多抽头。
基于DSP的收发器
对于奈奎斯特频率损耗超过40 dB的长距离信道,基于DSP的收发器(图24)成为主导架构。
DSP-DAC发射机:数字FFE通过查找表(LUT)实现以避免乘法器(图26)。发射机驱动采用分段DAC结构(图25),结合温度计码和二进制码以优化匹配和毛刺性能。驱动输出同样需要T-coil等无源网络进行带宽扩展。
- •模拟前端:为了在长距离链路中实现高奈奎斯特频率增益(>20 dB),需要更先进的CTLE结构。Q形整形CTLE(图27)通过调整无源电感并联峰化负载的Q因子来提供更高的峰值增益。混合CTLE结合了RC退化(控制中频斜率)和Q形整形(提供奈奎斯特峰值)。
- •时间交织ADC:TI SAR ADC是主流架构(图28)。由于Rank 1采样保持电路(T/H)的性能至关重要,常采用单管T/H和高速时钟(图29a)。Rank 2缓冲器使用翻转电压跟随器等技术来改善建立时间(图29b)。异步SAR ADC(图30)因其低比较器数量、简单数字逻辑和电容DAC而具有高能效。TI ADC的失配(增益、偏移、时间偏差、带宽)会降低SNDR(信噪谐波失真比),需要各种校准技术。时间偏差通常通过相位插值器(图31a)或相移缓冲器(图31b)在模拟域进行校正。
- •接收机DSP:数字FFE可以轻松实现数十个抽头,通过并行化、流水线、CSD(规范有符号数)编码等技术降低功耗。数字DFE虽然也可以通过推测和前瞻技术实现,但逻辑复杂,通常限于1-2个抽头。滑动块DFE等新架构有望实现更长抽头。最大似然序列检测(MLSD)通过维特比算法(图32)能提供比DFE更好的性能,尤其适用于部分响应信道(如1+αz-1)。降低状态的MLSD可以减小复杂度。
- •数字波特率CDR:穆勒-穆勒相位检测器(MMPD)是常用的数字波特率相位检测方案(图33)。它通过比较前标和后标ISI的差异来生成定时误差信号。为了减少CDR路径延迟,常使用一个独立的、延迟更短的定时路径FFEt来驱动MMPD。
- •前向纠错:FEC对于在存在突发错误(如DFE引起)或随机错误(如光链路)的情况下实现低系统BER至关重要。RS(里德-所罗门)码(如KP4 FEC)是100G 4-PAM电互联中常用的纠错码,能有效纠正突发错误,但会引入显著延迟。
光学接口电路
光互联用于延长传输距离而不受铜信道损耗限制。文章重点介绍了电/光(E/O)发射机和光/电(O/E)接收机的前端电路(图34)。
E/O发射机前端:直接调制(如VCSEL)或外部调制(如EAM、硅光MZM、MRM)是两种主要方式。驱动电路需要提供大的电压摆幅以产生足够的光调制幅度(OMA)。文章讨论了用于VCSEL的CML驱动(图35)、用于EAM的差分驱动(图36)、用于MRM的电压模驱动(图38)以及用于MZM的旅行波电极驱动(图39)等不同方案。MZM通过差分驱动和长调制器长度来降低所需电压摆幅,但面临速度匹配和插入损耗挑战。MRM等谐振器件对PVT(工艺、电压、温度)变化敏感,需要精确的偏置控制(如使用加热器,图37)。
O/E接收机:跨阻放大器(TIA)是将光电探测器产生的微小单极性电流转换为电压信号的关键。文章对比了不同TIA拓扑,如并联反馈TIA(图40)、基于逆变器的TIA等。多级设计方法(图41)可以放宽单级TIA在增益、噪声和带宽之间的权衡,即第一级提供高增益、低噪声但带宽有限,后续级(如Cherry-Hooper级)提供均衡以恢复总带宽。差分TIA架构可以改善噪声性能,但对电源调节要求高。
时钟
时钟电路对高速链路至关重要,涉及时钟架构、生成、分配、多相位生成、相位插值和校准。
时钟架构:可以采用全局PLL为多通道提供时钟,或每通道专用PLL以增加灵活性。电感式LC振荡器(LC-VCO)因其优异的相位噪声性能被广泛使用,但高Q值变容管或开关电容设计挑战大。环形振荡器(RO)面积小,调谐范围宽,但噪声和电源噪声敏感性高。子采样PLL等技术可以提高环路带宽。级联PLL架构(如抖动清理PLL+高速PLL)可以兼顾参考时钟滤波和VCO噪声抑制。
时钟分配:时钟分配网络需最小化功耗和抖动产生。中继器架构(图45a-c)包括CML或CMOS缓冲器。CMOS逆变器链具有频率缩放友好性,但级数随频率指数增长。谐振传输线(TL)分配(图45d-f)利用导线电感,无需中继器即可保持 sharp 的时钟边沿,在时钟波长分数长度内可实现低抖动。
多相位生成器:用于产生N相时钟(N>2)。技术包括无源/有源多相滤波器(PPF)、耦合谐振正交混合器(CRQH)(图46a)、耦合LC-VCO、环形振荡器、DLL(延迟锁相环)+ILO(注入锁定振荡器)等(图46b, c)。
相位插值器:PI用于产生旋转时钟相位以优化数据采样。文章比较了电流模PI(CMPI)、电压模PI(VMPI)和积分模PI(IMPI)等架构(图47)。IMPI通过电容充电产生可变斜率电压斜坡,具有良好的线性度。双PI架构或预失真查找表可用于提高线性度。
时钟校准:随着数据速率提高,时钟时序误差(如占空比误差、多相位误差)需要高精度(<100 fs)的检测与校正电路。
未来方向
文章最后展望了未来发展趋势。单通道速率将继续向200 Gb/s以上乃至400 Gb/s推进。更高阶调制(如6-PAM、8-PAM)将被用于提升频谱效率。DSP实现和软判决FEC将是重要研究方向。随着速率提升,铜互联在封装内的逃逸成为挑战,共封装铜互联和光学互联将更加重要。先进封装和芯粒(Chiplet)技术为系统分区提供了新的可能性。如果更高串行速率不切实际,增加通道数将成为必然选择,这使得高密度收发器设计至关重要。
综上所述,这篇教程性论文全面而深入地总结了现代有线收发器技术在过去二十年的发展历程、当前面临的挑战以及创新的解决方案。通过对模拟前端、数字信号处理、光学接口和时钟电路等关键技术的细致剖析,文章为读者构建了一个清晰的技术框架。研究表明,通过结合先进的调制格式、高效的均衡算法、精密的时钟管理和不断优化的电路设计,有线收发器正持续推动着数据通信速率和能效的边界。未来,随着新材料、新工艺和新架构的出现,有线收发器技术将继续演进,为下一代数据中心和高性能计算系统提供强大的互联支撑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号