《Results in Engineering》:CNTFET-Based Hybrid Approximate Multiplier Design with Optimized Compressors for Error-Resilient Image Processing and Enhanced Power-Delay Efficiency
编辑推荐:
本文针对CMOS技术面临的缩放瓶颈和近似计算在图像处理等容错应用中的能效需求,提出了一种基于碳纳米管场效应晶体管(CNTFET)的混合近似乘法器。研究人员通过优化设计无冗余进位依赖的4:2和5:2压缩器,并将其集成到Dadda乘法器架构中,显著降低了功耗(7.95 μW)和延迟(0.315 ns),功率延迟积(PDP)低至2.50 fJ。图像处理应用验证表明,该设计在保持高感知质量(PSNR 54.23 dB, SSIM 98.5%)的同时,实现了优异的能效,为下一代低功耗、高性能容错计算系统提供了有前景的解决方案。
随着物联网、边缘人工智能和便携式多媒体设备的飞速发展,对计算系统的能效和实时处理能力提出了前所未有的高要求。乘法器作为数字信号处理、图像处理和机器学习加速器等系统中的核心算术单元,其性能直接影响整个系统的功耗、速度和面积。然而,传统互补金属氧化物半导体(CMOS)技术在持续微缩至纳米尺度时,面临着短沟道效应、泄漏电流和能效下降等严峻挑战,制约了高性能算术电路的发展。与此同时,在图像增强、计算机视觉等许多应用中,计算结果的绝对精确并非必需,系统对微小误差具有一定的容忍度。这为近似计算提供了广阔的应用空间,其核心思想是通过有意识地放宽对计算精度的要求,来换取功耗、延迟和芯片面积的显著优化。
在此背景下,碳纳米管场效应晶体管(CNTFET)因其近乎弹道的载流子传输、高载流子迁移率以及在纳米尺度下更优异的栅控能力等卓越的电学特性,被视为替代传统CMOS技术的有力候选者。将CNTFET技术与近似计算范式相结合,有望为下一代低功耗、高性能的容错计算系统开辟新的道路。压缩器是构建高效乘法器(如Wallace树和Dadda乘法器)的关键模块,用于快速压缩部分积。然而,现有的4:2和5:2压缩器架构通常存在冗余的进位输入(Carry-in)依赖关系,这引入了不必要的逻辑复杂性,增加了晶体管数量,并限制了最大运算速度。因此,对压缩器进行根本性的重新设计,对于充分释放CNTFET技术在超低功耗、高性能算术运算单元中的潜力至关重要。
为解决上述问题,Arun Kolukulapally、Lakshmi Priya G和Poorna Sundari M在《Results in Engineering》上发表了他们的研究成果。他们设计并实现了一种基于CNTFET的混合近似乘法器。该研究的核心创新在于引入了经过逻辑优化的近似4:2和5:2压缩器,并通过一种混合架构策略,将近似压缩器应用于次要比特位,同时在关键精度路径保留精确的半加器/全加器,从而在保证应用级精度的同时,实现了功耗和延迟的显著降低。
为开展研究,作者团队采用了集成的设计方法。在器件层面,他们使用Cadence Virtuoso软件和斯坦福大学32纳米CNTFET模型进行建模和仿真,评估了CNTFET的转移特性和输出特性,并与其传统CMOS器件进行了性能比较。在电路设计层面,他们首先对基本的CNTFET逻辑门(如与门、或门、异或门)和全加器进行了设计和功能验证。随后,重点对4:2和5:2压缩器进行了优化:通过彻底的布尔分析和真值表验证,他们简化了逻辑表达式,消除了冗余的进位输入依赖,从而减少了逻辑门数量和关键路径延迟,提出了新的压缩器设计。在架构层面,他们采用了Dadda乘法器框架,将提出的优化压缩器集成到8×8位混合近似乘法器中。在应用验证层面,他们利用从仿真结果导出的查找表(LUT),在MATLAB环境中对图像处理任务(如图像相乘)进行了测试,并使用峰值信噪比(PSNR)和结构相似性指数(SSIM)来量化输出图像的质量。此外,研究还包含了工艺-电压-温度(PVT)角分析和蒙特卡洛分析,以评估所提出设计在 variations 下的鲁棒性。
4.2.1. N型与P型CNTFET的转移和输出特性
研究人员首先评估了n型和p型CNTFET的电气特性。仿真结果表明,n型CNTFET在栅源电压(VGS)超过阈值电压(Vth≈ 0.3 V)后,漏极电流(ID)急剧上升,展现出陡峭的亚阈值斜率和良好的栅控能力。其输出特性(ID-VDS)在线性区和饱和区都表现出平滑的过渡,反映了碳纳米管通道中准弹道输运的优势。p型CNTFET也表现出类似的优良特性,在负栅压下的导通特性。与相同技术节点的传统MOSFET相比,CNTFET在驱动电流、开关行为和阈值电压灵敏度方面均表现出更优的性能,这为其在高速、低功耗VLSI系统中的应用奠定了基础。
4.2.3. 基本逻辑单元验证
在构建复杂算术单元之前,研究团队成功设计并验证了基于CNTFET的基本逻辑门,包括与门、或门、异或门和全加器。瞬态仿真确认了所有这些单元在所有可能输入组合下都能产生正确的输出响应,证明了CNTFET逻辑用于高速数字应用的功能准确性和鲁棒性。特别是全加器,在全部八种输入组合下均能正确生成和(SUM)与进位(CARRY)信号,且具有准确的时序特性,为构建更复杂的算术电路提供了可靠的基础模块。
4.3. 优化的近似压缩器设计
本研究的核心贡献是提出了新型的、经过优化的近似4:2和5:2压缩器。通过对传统压缩器架构进行深入的布尔逻辑分析,研究人员发现并消除了冗余的进位输入路径。提出的4:2压缩器将逻辑门数量从9个减少到7个,而5:2压缩器则从18个大幅减少到9个。这种简化直接带来了性能提升:与已有的CNTFET设计相比,提出的4:2压缩器功耗降低了32%(从0.394 μW降至0.268 μW),延迟降低了22%(从24.7 ps降至19.3 ps);5:2压缩器的功耗从0.415 μW降至0.297 μW,延迟从31.6 ps降至26.4 ps。优化的压缩器架构有效减少了内部开关活动性和逻辑深度,从而降低了功耗并提高了速度。
4.4. 乘法器级性能分析
将优化的压缩器集成到8×8位Dadda乘法器架构中,形成了所提出的混合近似乘法器。该乘法器在非关键低位部分使用近似压缩器,在关键高位部分使用精确加法器,以平衡效率和精度。仿真结果表明,该混合乘法器功耗仅为7.95 μW,最大延迟为0.315 ns,功率延迟积(PDP)低至2.50 fJ。与现有的其他CNTFET基和CMOS基近似乘法器设计相比,该设计在功耗、延迟和PDP方面均展现出显著优势,实现了最低的功耗和最高的能效。
4.5. 应用级评估(图像处理)
为了验证实际应用效果,该乘法器被用于图像处理任务。通过将从Cadence仿真得到的精确输出响应导入MATLAB形成查找表,进行像素级图像乘法运算。结果表明,即使采用了近似计算,输出图像与使用精确乘法器得到的图像相比,视觉质量退化微乎其微。定量分析显示,其峰值信噪比(PSNR)高达54.23 dB,结构相似性指数(SSIM)达到98.5%,显著优于其他对比设计,证明了该近似乘法器在保持高感知图像质量方面的有效性。
4.6. 性能评估与变异性分析
为确保设计的鲁棒性,研究人员进行了全面的PVT(工艺、电压、温度)分析和蒙特卡洛统计分析。PVT分析 across TT, FF, SS等不同工艺角以及电压温度变化表明,所设计的各种逻辑模块(从反相器到完整乘法器)均能保持稳定的逻辑输出电平和可接受的噪声容限。蒙特卡洛分析(200次运行)显示,关键路径的延迟变化系数(标准差/均值)均低于1%,表明电路对操作条件的变化不敏感,具有高度的时序稳定性和制造良率潜力。
本研究成功展示了一种高性能、低功耗的CNTFET基混合近似乘法器。通过创新地优化4:2和5:2压缩器的逻辑设计,消除了冗余的进位依赖,显著降低了电路复杂度和功耗延迟积。将其集成到Dadda乘法器框架中,形成的混合架构在保持高输出精度(尤其适用于图像处理等容错应用)的同时,实现了卓越的能效。详细的仿真和比较分析证实,该设计在功耗、延迟和能量效率方面均优于现有方案,并且对工艺波动具有良好的鲁棒性。这项工作不仅为误差弹性应用(如边缘AI、实时多媒体处理)提供了一种高效的算术单元解决方案,也展示了CNTFET技术与近似计算结合在推动下一代纳电子学发展方面的巨大潜力。未来的研究方向包括将架构扩展至更大位宽、进行包含寄生参数的后布局仿真以及探索在更多样化的应用场景(如AI加速器)中的部署。