-
MonoFG:基于知识蒸馏的单目3D物体检测技术,用于以人为中心的自动驾驶系统
摘要单目3D物体检测对于识别道路图像中的物体至关重要,因此可以为以人为中心的自动驾驶系统提供宝贵的环境感知数据。然而,由于相机成像的固有局限性,仅从图像中获取精确的深度信息是具有挑战性的,这影响了场景内物体定位的准确性。在本文中,我们介绍了一种名为MonoFG的单目3D物体检测方法,该方法利用分离前景和背景组件的知识蒸馏来提高物体定位的准确性。首先,分离的前景和背景蒸馏过程可以战略性地利用从每个位置获取的不同位置信息来优化生成的全局蒸馏效果。这一步是为后续的特征和响应蒸馏过程奠定基础,后续过程关注的是蒸馏后的前景和背景,而不是孤立的物体蒸馏。其次,基于三重注意力机制的特征蒸馏增强了学生网络的特
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
基于上下文感知的主动自适应控制:一种双层模型预测控制方法
摘要在自适应软件系统中,上下文的作用至关重要,尤其是在主动自适应方面。然而,当前的研究尚未充分探讨上下文的影响,例如对需求优先级的影响。为了解决这一不足,我们提出了一种新的上下文目标模型来捕捉这些因素及其对系统的影响。基于该模型,我们设计了一种双层控制机制,结合了上下文感知的模型预测控制技术,以实现软件系统的主动适应以及控制器自身的适应。通过上下文预测和更精确的系统模型,我们的方法利用模型预测控制技术来促进系统及时、高效的适应,从而提升系统的性能和适应性。同时,我们通过需求调整来更新上下文目标模型,进而更新控制器的目标函数和约束条件。我们在两种场景下的实验评估表明,我们的方法在提升系统性能方面
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
用于移动多媒体通信的卫星边缘计算:一种多智能体联合强化学习方法
摘要卫星 mega-constellations(大型卫星星座)的快速扩张凸显了卫星边缘计算在移动多媒体通信领域的巨大潜力。尽管强化学习已在卫星通信系统中得到应用,但仍存在诸多挑战,如高延迟和资源限制。本研究通过关注卫星边缘计算中通信、计算和缓存资源的联合优化来应对这些挑战,以支持移动多媒体应用。研究人员构建了一个混合整数非线性规划(MINLP)模型,旨在在多维资源容量约束条件下最小化移动用户的总延迟。然而,该问题属于NP难问题,无法在多项式时间内得到有效解决。为了解决这一复杂性,我们提出了一种基于多智能体联邦强化学习(MAFRL)的方法。在该框架中,每颗卫星都作为一个自主学习智能体运行,并采
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
FedGPL:基于梯度优先级的联邦学习增强技术,用于车载语言模型
摘要针对自动驾驶等特定应用的大型语言模型(LLMs)训练面临着重大的数据隐私挑战。联邦学习(FL)通过允许使用本地数据的同时保护隐私,提供了一种解决方案。在本文中,我们介绍了一种基于梯度优先级的联邦学习方法(FedGPL),该方法旨在提高自动驾驶车辆中LLM训练的效率。FedGPL在服务器端预先计算梯度,以识别模型的关键层,从而使车辆能够选择性地使用本地数据更新这些层。这种选择性更新减少了计算负担,并最大限度地降低了梯度数据的传输量。实验结果表明,FedGPL在保持与现有方法相当准确性的同时,显著降低了计算和通信成本,使其成为训练自动驾驶领域高级语言模型的一个有前景的方法。
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
EPAuto:利用多方计算技术在基于人工智能的自动驾驶系统中实现高效且保护隐私的机器学习
摘要由人工智能驱动的自动驾驶系统正被越来越多的汽车制造商采用,而使用机器学习技术训练自动驾驶模型需要大量的驾驶数据。制造商们倾向于通过生态系统合作伙伴关系来共同推进自动驾驶算法的发展,例如华为就与多家合作伙伴建立了合作关系,共同分享智能汽车解决方案。然而,汽车制造商自然会对数据隐私问题感到担忧。本文提出了一种名为EPAuto的隐私保护框架,用于汽车制造商之间的协作式机器学习。EPAuto利用安全的多方计算(MPC)技术来实现高效的隐私保护机器学习(PPML)。我们提出了改进的位比较和最高有效位(MSB)提取协议,其中随机排列矩阵是核心技术。此外,我们还设计了隐私保护机器学习(PPML)的基本构
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
GSFL:一种在资源受限的边缘计算场景中保护隐私的分组-分割联邦学习方法
摘要移动多媒体通信、5G技术和物联网(IoT)的发展促进了边缘设备(包括传感器、智能手机和可穿戴设备)的广泛使用。这产生了大量分布式数据,为深度学习带来了新的机遇。然而,这些数据被封闭在数据孤岛中,并包含敏感信息,因此在严格的隐私法规下难以进行集中处理。联邦学习(FL)通过实现协作学习同时保护隐私来提供解决方案。尽管如此,数据和设备的异构性使得FL的实现变得复杂。本研究提出了一种专为异构边缘计算设计的FL算法。该算法结合了针对同构设备的轻量级分组策略、组内的调度算法以及分割学习(SL)方法。这些改进提高了模型精度和训练速度,减轻了资源受限设备的负担,并增强了数据隐私保护。实验结果表明,在α=0
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
边缘自适应动态可扩展卷积技术:用于高效远程移动病理分析
摘要随着边缘计算的出现,对于能够在边缘设备上实时、高效处理复杂数据的高级技术的需求日益增长,尤其是在处理病理图像的移动健康系统中。在边缘计算设备上,模型的轻量化和计算需求的降低不仅节省了资源,还提高了推理速度。尽管近年来提出了许多轻量级模型和方法,但它们仍然面临许多共同挑战。本文介绍了一种新的卷积操作——动态可扩展卷积(Dynamic Scalable Convolution,简称DSC),该操作能够优化计算资源并加速边缘计算设备上的推理过程。通过对比分析,发现在图像分类和语义分割等计算机视觉任务中,DSC在参数效率、计算速度和整体性能方面均优于传统卷积方法。实验结果表明,DSC在增强深度神经
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
Silk:基于运行时指导的内存管理技术,用于降低移动设备上应用程序运行时的卡顿现象
摘要作为一种经济有效的方法来扩展移动设备的内存,交换(swap)有望提升应用程序的性能。然而,本文发现了当前移动设备内核内存管理在处理用高级语言开发的应用程序时存在的两个局限性。首先,应用程序线程访问的数据基于Android运行时(ART)堆中的小对象。实验结果表明,一个页面内包含多个热度不同的对象。现有的基于页面的内核内存管理无法准确识别页面内对象的热度,错误地优先回收“热”对象,这导致“热”对象的交换次数增加,从而引起应用程序运行不稳定。其次,ART使用垃圾回收(GC)来回收无效对象,但内核基于LRU(最近最少使用)的内存管理机制无法了解GC工作集内对象的热度分布。这导致“冷”对象的回收被
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
尾部学习:一种用于减轻自主边缘系统尾部延迟的自适应学习方法
摘要在边缘计算领域,对高质量服务(QoS)的需求日益增长,尤其是在动态多媒体流媒体应用(如增强现实/虚拟现实和在线游戏)中,这迫切需要有效的解决方案。然而,采用基于分布式计算的边缘计算范式反而加剧了尾延迟问题。由于边缘服务器支持的多媒体服务种类有限,且用户请求具有动态性,使用传统的排队方法来模拟分布式边缘计算中的尾延迟颇具挑战性,这会显著加重前端(HoL)阻塞现象。为应对这一挑战,我们开发了一种基于学习的调度方法,该方法能够根据传入的分布式任务大小动态选择合适的边缘服务器进行执行。为了优化边缘计算范式的利用率,我们利用拉普拉斯变换从理论上推导出边缘服务器响应时间的上限。随后,我们将这一上限纳入
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
一种用于监控易变边缘环境的分散式和自适应方法
摘要边缘计算为物联网(IoT)工作负载在网络边缘提供了资源。监控系统对于通过收集、存储和提供有关资源状态的相关信息来高效管理资源和应用程序工作负载至关重要。然而,传统的监控系统在数据平面和控制平面都采用集中式架构,这会增加延迟、形成故障瓶颈,并且在波动较大的边缘环境中难以提供快速且可靠的数据,尤其是在基础设施基于容易出故障、技术较为简单的计算和网络资源构建的情况下。因此,我们提出了DEMon,一种去中心化、自适应的边缘监控系统。DEMon的核心采用了随机八卦通信协议,它开发了高效的信息传播、通信和检索协议,避免了单点故障,确保了快速且可靠的数据访问。其去中心化的控制机制使得监控参数能够自适应地
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
HAVIT:一种高效的硬件加速器,专为视觉Transformer设计,采用信息丰富的补丁选择技术
摘要视觉变换器(ViTs)在计算机视觉领域得到了广泛应用。然而,它们面临着计算成本高昂的挑战,尤其是在资源有限的设备上进行实时推理时。为了解决这一挑战,我们设计了HAVIT,这是一种高效的ViT加速器,它将轻量级的信息性补丁选择技术与核心ViT加速模块相结合。这些信息性补丁选择技术的计算量非常小,平均仅占总体计算量的约0.03%,因为它们依赖于Sobel和Canny等边缘检测方法,而不同于计算量庞大的AI模型。在边缘检测之后,我们使用了三种算法:基于密度的补丁选择器(DSP)、行列交点补丁选择器(RCI)和有界包络补丁选择器(BEP),每种算法都提供了不同的选择信息性补丁的方法,并在准确性和性
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
利用分治方法实现的高效以GPU为中心的奇异值分解
摘要奇异值分解(SVD)是线性代数中一种基本的矩阵分解技术,广泛应用于许多与矩阵相关的问题中。然而,尽管GPU的计算能力有所提升,传统的SVD方法仍受到面板分解速度慢以及异构系统中频繁的CPU-GPU数据传输的限制。在本文中,我们提出了一种以GPU为中心的SVD算法,该算法采用了新型的基于GPU的双对角线分治(BDC)方法。我们对SVD计算的不同步骤进行了重新设计,并将所有面板级别的计算和后续矩阵更新完全在GPU上完成,从而消除了CPU与GPU之间的数据传输。此外,我们还整合了相关计算以优化BLAS(Basic Linear Algebra Subroutines)的使用,从而提高了算术运算的
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
利用内存处理技术加速区块链数据库系统中的可验证查询
摘要区块链数据库系统(如以太坊和vChain)在检索用户请求的数据时存在内存带宽有限以及内存访问延迟较高的问题。新兴的内存处理(PIM)技术有望通过实现低延迟的内存访问和随PIM模块数量增加而扩展的内存带宽来加速用户查询。在本文中,我们介绍了Panther——首个基于PIM技术的区块链数据库系统,它支持高效的、可验证的查询。区块被分发到PIM模块以实现高并行性,并且PIM模块之间的通信成本较低,这一过程由基于回归模型的机制进行管理。为了实现PIM模块之间的负载均衡,数据会在主机端和PIM端之间进行动态的迁移。在多个数据集的测试中,Panther在可验证查询方面实现了高达23.6倍的加速效果,并
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
基于因式分解的属性残差摘要方法在自适应边缘式自主系统安全中的应用
摘要由于边缘环境的特殊性,基于边缘的自主系统在安全操作方面面临着显著的风险。在基于边缘的自主系统中检测流量异常对于确保这些系统的安全性变得越来越重要。现有研究未能充分考虑流量属性与异常类型之间的关系。特别是,现有解决方案在检测主要仅在一些属性上表现出统计特征的异常时存在困难。为了解决这个问题,我们提出了一种基于非负分解的属性残差摘要方法和一种非参数统计框架,用于基于边缘的自主系统的自适应安全监控。具体来说,引入了依赖于乘法更新规则的非负分解方法来提取属性特征。通过张量线性表示构建属性残差摘要,即使只有少数流量属性受到影响,该方法也能很好地描述统计差异,从而实现对各种攻击的自适应安全监控。随后,
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
HotLD:一种基于工作负载感知的共享库全局代码布局优化方法
摘要动态链接是软件开发过程中的一个重要技术。虽然动态链接可以节省内存并提高可维护性,但它也会带来性能开销,并阻碍针对第三方库的应用程序代码布局优化技术。现有的方法(如BOLT)可以通过为特定的工作负载生成优化后的共享库版本来解决这个问题。在线代码布局优化(PGO)方法(如OCOLOS)可以进一步支持动态代码替换,以适应工作负载的变化。然而,这些方法在几个方面存在局限性:(1)难以进行全局优化;(2)内存消耗高且性能开销大;(3)适用场景有限。为了解决这些问题,我们提出了HotLD,这是一种基于工作负载的共享库全局代码布局优化方法。HotLD能够在引入有限性能和内存开销的同时提升共享库的性能。H
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
高性能计算中的自主资源采集:控制方法及其可重用性
摘要高性能计算(HPC)系统会受到动态变化的影响,例如作业执行时间、I/O操作量以及网络使用情况等。为了适应这些不可预测的变化,需要在在线反馈循环中采用自主管理机制。控制理论方法的引入有助于设计出基于坚实理论基础的自主管理系统。由于现有控制器的种类繁多,选择合适的方法颇具挑战性。评估控制器的标准多种多样,既包括性能和效率,也需要具备控制理论方面的专业知识,以及控制器在子系统间的可重用性和可移植性。因此,开展比较研究对于帮助设计者做出决策至关重要。我们研究了HPC系统中的资源利用问题,其中调度策略常常导致资源闲置。我们的方法通过反馈循环来控制小规模作业的投放,以最大化资源利用率。控制的核心在于如
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
面向混合型PM-DRAM内存的高效可扩展完美哈希技术
摘要哈希是一种广泛使用且高效的键值存储索引机制。持久性内存(PM)的出现通过提供非易失性和类似DRAM的性能进一步增强了哈希索引的功能。然而,目前关于基于PM的哈希索引的研究主要集中在硬件特定的持久性优化或写入性能优化上,而忽视了读取性能这一关键方面。我们的研究表明,哈希冲突会显著降低基于PM的哈希索引的读取性能。因此,能够消除冲突的完美哈希技术有潜力提升读取性能。不过,由于PM的访问延迟较高,哈希表扩展过程中的数据移动开销以及完美哈希本身引入的随机访问都会导致性能瓶颈。在本文中,我们提出了一种名为EEPH+的高效完美哈希方案,专门用于PM,可以有效消除哈希冲突从而提升读取性能。EEPH+采用
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
面向智能手机的对象感知内存压缩技术
摘要内存压缩对于控制智能手机的内存消耗至关重要。不幸的是,像zRAM这样的主流压缩方案在管理语言运行时环境中与垃圾回收(GC)配合使用效果不佳。当垃圾回收被触发时,它会遍历堆中的对象,从而导致频繁的交换操作以及重复的内存压缩和解压缩过程,这会带来显著的性能开销并降低用户体验。为此,我们提出了一种基于对象感知的压缩内存方案,称为oaRAM,该方案允许垃圾回收算法直接解析压缩后的内存数据,从而无需在垃圾回收过程中进行解压缩操作。此外,我们通过进一步弥合操作系统中的内存压缩模块与语言运行时中的垃圾回收器之间的语义差距,实现了无需交换操作的内存回收机制。在操作系统层面,我们提供了一个基于对象感知的内存
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
针对Arm生态系统的内存碎片化问题进行协调:一种基于片上网络(Network-on-Chip)的统一方法来测量内存带宽
摘要由于知识产权(IP)许可的性质,基于Arm架构的平台存在严重的硬件碎片化问题。硬件供应商通常会自定义内存控制器。传统的基于内存控制器性能监控单元(PMU)的内存带宽测量方法面临诸多障碍,包括缺乏内核驱动程序支持和官方文档。为此,我们将视角提升到更通用、更高级别的层面,即片上网络(NoC)层面,而不是依赖于各种定制的内存控制器。我们提出了一种基于NoC流量监控的内存带宽统一测量方法。通过纯粹基于PMU数据的检测,该方法能够自动揭示内存控制器的物理位置。通过监控NoC上连接内存控制器的端口的上行和下行数据流量,该方法可以在不访问内存控制器PMU的情况下实现准确的内存读写带宽测量,从而实现硬件碎
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
ScaleGS:缩小实时3D高斯散射技术与实时XR渲染之间的差距
摘要在 XR 应用中,使用 3D 高斯散射(3D Gaussian Splatting)等算法进行照片级真实感的渲染一直是实时性能的瓶颈。GPU 无法提供高效的渲染效果,而大多数专用加速器主要针对单个对象的渲染,然而几乎所有 XR 场景都涉及多个对象。我们推出了 ScaleGS,这是一个算法与架构协同设计系统,旨在缩小实时 3D 高斯散射与实时 XR 渲染之间的差距。具体而言,我们专注于多对象渲染,从以对象为中心的角度构建 XR 渲染流程,并区分静态对象和移动对象以减少不必要的计算。重要的是,我们发现了渲染流程中不同对象和阶段之间的多个并行层次,以及渲染阶段内对象之间的高数据重用性。利用这些见
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08