-
一种端到端的框架,用于编译密集矩阵和稀疏矩阵与向量的乘法运算,以实现FPGA-HBM加速
摘要高带宽内存(HBM)所提供的带宽提升,以及现场可编程门阵列(FPGA)在处理和内存层次结构方面的定制能力,使得在图形处理、排序、机器学习和数据库分析等内存密集型工作负载中性能得到了显著提升。集成3D堆叠DRAM内存的现代系统可以通过将部分计算任务卸载到靠近HBM的加速器上来实现近内存计算(NMC)范式。矩阵-向量乘法(MVM)核这类对内存依赖性强的计算任务,在FPGA-HBM平台上执行时能够获得显著优势。MVM核大致可分为两类:密集型(通用矩阵-向量乘法,GEMV)和稀疏型(稀疏矩阵-向量乘法,SpMV)。现有研究主要集中在针对FPGA-HBM优化SpMV算法上,而统一解决方案的研究相对较
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
客户端-服务器多智能体深度强化学习在移动边缘计算中的任务卸载应用
摘要随着移动应用程序复杂性的增加,执行计算密集型任务的需求也在不断增长。然而,用户设备(如平板电脑和智能手机)在执行所需计算时的能力有限。在移动边缘计算(MEC)中通过任务卸载可以满足这一需求,即在用户设备和服务器之间分配任务。深度强化学习(DRL)是实现这一策略的一种有前景的方法,因为它能够适应动态变化并最小化在线计算复杂性。然而,用户设备和MEC服务器上存在的各种连续性和离散性资源限制对高效DRL算法的设计构成了挑战。现有的基于DRL的任务卸载算法主要关注用户设备的限制,同时假设服务器上有足够的资源。此外,现有的多智能体DRL(MADRL)任务卸载算法采用同质智能体模型,并将同质性限制作为
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
自主计算的重新崛起:驾驭计算连续体
摘要技术的进步和服务的快速部署催生了一个无处不在且相互连接的“计算连续体”(computing continuum)。这一连续体为新的应用形式和工作流程提供了可能,为消费者带来了全新的服务,并成为推动发现、创新和经济增长的核心动力。然而,它同时也带来了系统和管理方面的新挑战,这些挑战必须在计算连续体的潜力得到充分实现之前得到解决。自主计算(autonomous computing)能够提供有效利用这一连续体所需的抽象层和机制,但自身也需要不断发展以应对这些新挑战。本文呼吁重新审视自主计算技术,以便我们能够真正充分利用这一计算连续体的优势。
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
DFGAS:通过DFG感知方案探索硬件-软件调度的平衡
摘要粗粒度可重构架构(CGRAs)被视为适用于多个领域不断发展的算法的有前景的空间计算平台。然而,纯软件调度无法弥补这些纯静态CGRA设计在过度序列化和负载不平衡方面的缺陷。为了解决由于硬件灵活性有限而引起的问题,需要深入研究CGRA的软件和硬件调度设计之间的平衡,以实现更精确、准确和自适应的数据流调度。在本文中,我们提出了DFGAS(DFG-Aware Scheduling),这是一种基于数据流驱动的CGRA,它提供了一种全面的调度方法,包括软件预测、运行时自适应执行以及执行后的优化。在执行之前,TimeStamp预测算法结合固有的数据流执行模型,能够在NoC和PE上进行粗粒度(块级)的传输
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
统一且高效的因子图加速器设计在机器人优化中的应用
摘要尽管付出了大量努力,但目前用于基于优化的机器人应用的设计方法仍存在局限性,主要体现在实时性能不足和能耗较高方面。一些方法侧重于设计通用矩阵计算单元,但未能充分考虑机器人算法的特定特性;另一些方法则致力于开发专用加速器,虽然能够实现优异的性能,但灵活性有限。为了在通用设计与专用设计之间找到平衡,本文提出了一种硬件加速器。该加速器通过统一的姿态表示方式和因子图抽象技术,能够在同一块电路上同时处理定位、规划与控制等非线性优化问题。通过精心设计的流水线结构、电路优化、定点运算以及稀疏数据压缩技术,该加速器在保证高性能的同时实现了较高的能效。在FPGA上的实验结果表明,与现有的加速解决方案相比,我们
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
基于区块链的高效跨域访问控制系统,用于自动驾驶车辆数据共享
摘要自动驾驶需要车辆与基础设施之间的协同合作,为了支持智能交通,大量的数据不断被生成和共享。在这种复杂的场景中,必须应用严格且灵活的访问控制机制来保护数据隐私。然而,传统的集中式架构无法高效地处理自动驾驶数据的使用和授权问题。为了在彼此不完全信任的多家公司之间优先进行数据共享,我们提出了一种基于区块链的高效跨域访问控制系统,称为BAAC。该系统结合了基于属性的访问控制模型和区块链技术,以实现安全且灵活的数据共享。首先,将实体属性分为公共属性和私有属性,以提供细粒度的访问控制。此外,设计了多个智能合约来高效地分发和管理跨域属性,并将数据访问历史异步记录在区块链上。由于实际网络的不稳定性,还设计了
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
RCHDroid:适用于 Android 应用的透明运行时变更处理机制
摘要移动设备经常遇到运行时配置的变化,例如屏幕方向调整、屏幕大小变更和语言切换。当前的Android框架采用基于重启的机制来重新加载资源以应对这些变化。因此,开发人员必须在活动重启期间显式管理状态的保存和恢复;否则,运行时变化可能导致状态丢失甚至应用程序崩溃。为了解决这些问题,我们提出了RCHDroid,这是一种用于处理Android应用程序中运行时配置变化的透明系统级方法。RCHDroid不会重启活动,而是根据更新后的配置创建一个新的活动,并将旧活动的状态无缝迁移到新活动中,同时使旧活动失效。为了管理仍在旧活动中运行的异步任务,我们引入了一种基于时代的迁移方案,以确保任务完成时结果事件能够被
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
基于变色龙哈希(Chameleon Hash)的协作式时间序列数据完整性监控
摘要海洋对人类的重要性是不可否认的,无论是在生态、气候还是资源方面。利用收集到的海洋数据并结合人工智能(AI)来实现自适应和自动化的处理与预测是目前的研究重点。AI应用的有效性在很大程度上取决于海洋数据的完整性。海洋数据具有三个特点:广阔的空间覆盖范围、较长的时间持续性和庞大的数据量。传统的基于云的数据完整性验证方法已不再适用。海洋数据应在更接近数据采集点的边缘服务器上进行处理,然后再发送到相应的数据存储服务器。数据处理方法需要具备轻量级的特性,以适应数据的顺序性特征。此外,数据完整性监控过程应在数据存储服务器上协同完成,无需依赖中央第三方。为此,我们提出了一种海洋数据完整性监控协议。该协议根
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
基于BDI的面向任务的代理在信念空间中
```摘要构建能够帮助人类完成特定领域任务的对话式智能体是一项具有挑战性的任务,因为这类智能体需要理解自然语言,并在利用领域专家知识的同时对这些语言信息进行有效处理。现代自然语言处理技术推动了对话式智能体的发展,最近预训练的语言模型通过使用日益庞大的开放数据集,实现了越来越准确的语言识别能力。然而,这类预训练语言模型的“黑箱”特性使得智能体在响应时的推理过程及其动机变得难以理解,从而导致对话结果显得不合逻辑。在这项研究中,我们开发了一种基于信念-欲望-意图(BDI)模型的对话系统,该模型能够像人类一样在对话过程中表达自己的心理状态。我们通过整合现有对话系统组件,并将智能体的意图选择作为对话策略
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
RaKV:一种针对云块存储的、优化写入性能的LSM存储系统,具备强大的服务水平协议(SLA)保障
摘要在云块存储(CBS)上构建基于LSM树的键值存储(LSM存储)由于其相较于本地块存储设备的便利性而越来越受欢迎。然而,CBS的带宽受限以及带宽与付费IOPS之间的竞争导致了LSM存储的性能下降和较高的延迟,从而无法提供稳定的服务水平协议(SLAs)。我们提出了RaKV,这是一种针对CBS的高效LSM存储方案,能够提供稳定的SLAs,从而提升写入性能并减少延迟。RaKV通过利用实例内存并管理组件之间的数据流成功应对了这些挑战。首先,RaKV设计了一个动态分区的L0存储层,并采用并行的L0-L1压缩机制来最小化写入放大效应和写入停滞,从而减轻CBS带宽受限对性能的影响。其次,RaKV提出了一种
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
在V2X环境下,用于数据联邦的隐私保护分组聚合查询
摘要车对一切(V2X)技术使车辆能够相互通信,与基础设施及云端进行交互,从而实现智能交通管理和车辆互联互通。然而,车辆生成的数据引发了关于个人隐私和企业利益的担忧。随着V2X技术的快速发展,数据安全问题日益凸显。数据联邦作为一种新兴的数据共享模式,利用安全的多方计算技术,在不泄露原始数据的情况下实现数据所有者之间的协作,为解决V2X数据交换过程中的隐私和安全问题提供了新的方法。本文提出了一种基于分组聚合的数据联邦查询算法,旨在保护个人隐私数据的同时,促进有效的数据共享与分析。该算法通过不传输分组结果,而是将加密后的聚合属性值传递给相关数据所有者,从而改变了传统的分组聚合查询流程。通过使用具有加
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
在GPU上推进矩阵运算,以实现高性能和高效利用内存的自动机处理
摘要有限状态自动机在模式匹配和数据分析等众多领域中至关重要,这些领域对高吞吐量有严格要求。最近的研究探索了将自动机执行过程表示为矩阵代数,并利用CPU的BLAS(基本线性代数子程序)库。尽管这种方法具有潜力,但存在内存使用、数据局部性以及冗余计算等方面的瓶颈。本研究系统地识别了这些瓶颈,并针对它们开发了特定的优化措施。由于GPU具有强大的计算能力和广泛的可用性,我们重点关注GPU。为了解决这些挑战,我们提出了三种关键技术来提高计算和内存效率:(1)通过消除转移矩阵中的重复项来减少内存使用;(2)通过交错重新编号状态来提高GPU线程的利用率;(3)通过缓存状态向量来消除冗余计算。详细评估表明,所
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
在GPU上优化通用稀疏矩阵乘法运算
摘要通用稀疏矩阵乘法(SpGEMM)是科学和工程计算领域中一个至关重要的计算核心。由于稀疏矩阵中非零元素分布不规则,SpGEMM 计算面临诸如非连续内存访问和工作负载不平衡等挑战。本文重点研究针对 GPU 平台的 SpGEMM 优化方法。首先,训练一个轻量级的机器学习模型来预测结果矩阵的最佳大小估计方法。接着,分组启动不同的计算内核以最大化 GPU 共享内存的利用率并实现负载均衡。对于基于哈希的稀疏累加器,采用启发式方法选择最佳的哈希负载因子和哈希乘数因子,从而减少哈希冲突的数量。此外,在符号计算阶段应用线程缩减技术以提高块内并行性。通过结合这些优化策略,我们实现了一个适用于 GPU 的自适应
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
MCExplorer:探索多种计算引擎深度学习加速器的设计空间
摘要模型感知型深度学习(DL)加速器在性能和效率方面优于通用加速器。这些模型感知型加速器通常包含多个专用计算引擎(Compute Engines, CEs),以处理DL模型中各种计算任务的特性。多计算引擎加速器通常针对现场可编程门阵列(Field-Programmable Gate Arrays, FPGAs),因为FPGA的可重构性能够使计算引擎架构适应模型操作的不同计算需求。随着DL模型的持续发展及其在应用领域的广泛应用(这些应用领域具有多样化的优化目标,如低延迟、高吞吐量和能效),寻找高度优化的多计算引擎加速器架构变得颇具挑战性。多计算引擎加速器的设计空间非常广泛,而现有的研究仅探索了其
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
人工智能在人机协作中的应用综述:机器的视角
摘要本文全面分析了人工智能(AI)在人机协作(HMC)中的作用,提供了一个关于机器代理如何评估和与人类互动的综合性视角。虽然以往的研究分别探讨了人类评估、信任建立或功能分配等各个方面,但我们将这些组成部分整合到一个整体的协作系统框架中。我们研究了两种评估方法:外部方法(观察人类的认知状态、意图和沟通方式)和内部方法(使用认知模型来模拟人类思维)。制造业和自动驾驶汽车领域的应用系统地展示了这些概念。在此基础上,我们探讨了AI如何帮助机器建立并调整对人类伙伴的信任,以及如何通过智能的功能分配和干扰管理来优化人机交互。本文还讨论了在人类评估、机器信任建立、透明度以及交互优化方面面临的挑战和未来的研究
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
HAG-MTF:一种用于工业5.0大规模流量预测的高阶自适应生成图模型
摘要随着城市智能交通的发展,城市交通网络的复杂性不断增加,这凸显了大规模交通数据预测在交通管理和城市规划中的重要性。传统的时空图模型(如Graph-WaveNet和MTGCN)在空间维度扩展时面临指数级增加的计算复杂性。为应对这一挑战,我们提出了一种新型的高阶自适应生成图模型(HAG-MTF),该模型利用生成式人工智能和高阶图结构来模拟大规模交通数据中的复杂空间依赖关系。HAG-MTF包含一个高阶降维模块,以优化交通节点的处理过程,通过利用先前的图关系生成一个融合图,从而动态地整合邻近信息,实现高效、局部的图卷积。该模型还加入了高阶时空关系提取模块(H-net),在提高交通数据处理能力和速度的
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
关于Web 3.0和元宇宙在联网自动驾驶车辆中的智能应用的特刊介绍:第二部分
摘要Web 3.0和元宇宙技术与联网自动驾驶车辆(CAVs)的融合正在催生一个智能车辆系统的新时代,这一时代的特征是去中心化、沉浸式交互以及更高水平的自主性。在需要安全点对点协作、无需信任的自动化处理,以及在实时约束下实现物理环境与虚拟环境无缝整合的场景中,这种范式尤其具有价值。然而,实现这些智能应用面临诸多关键挑战,包括开发强大的去中心化治理机制和智能合约、确保边缘计算环境中的超低延迟和高吞吐量通信、通过高保真数字孪生或元宇宙表示实现数字与物理世界的无缝同步,以及保障分布式车辆网络的可扩展性和隐私性。本期特刊汇集了一系列开创性研究,这些研究针对这些多方面的挑战进行了探讨,展示了推动技术进步的
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
HiSo:针对PIM架构,通过混合数据流方式共同优化层内和层间调度方案
摘要内存处理(PIM)架构通过整合计算和内存资源,成为实现能效高效卷积神经网络(CNN)加速的有前景的候选方案。为了部署CNN,基于PIM的设计需要一种调度方案,将庞大的硬件资源转化为实际性能。该调度方案包括层内调度方案(用于映射某一层的数据)和层间调度方案(用于为多层分配资源)。目前,针对基于PIM的调度方案的研究仍处于早期阶段,并面临以下限制:首先,层内调度方案主要采用权重静止(WS)数据流来避免权重移动;然而,对于某些深度神经网络(DNN)或某些层而言,激活值的移动量大于权重的移动量,这使得激活值的移动成为降低延迟和能耗的瓶颈。其次,输入静止(IS)数据流为进一步减少激活值的移动提供了新
来源:ACM Transactions on Architecture and Code Optimization
时间:2025-11-08
-
基于LLM的无人机路径规划在自主与适应性工业系统中的应用
摘要在工业4.0时代,配备多种传感器的无人机(UAV)在巡逻和监控等工业任务中发挥着重要作用,它们具有高机动性、精确感知能力和自主操作的优势。然而,传统的无人机路径规划方法在可解释性和适应动态工业环境方面存在不足。为了解决这些问题,本文提出了一种基于大语言模型(LLM)的无人机群路径规划新方法,适用于自主和适应性强的工业系统。该方法旨在减少路径规划所需的时间和计算资源,同时提高无人机的任务完成率。具体而言,我们首先提出了多步深度思考运动决策样本生成算法(MSDTMD-SG),用于为LLM生成不同场景下的训练样本并进行微调;其次,设计了一种场景记忆与重放学习机制,使受损无人机能够存储感知信息,并
来源:ACM Transactions on Autonomous and Adaptive Systems
时间:2025-11-08
-
公平的体验?人机交互(HCI)研究如何从残疾视角理解虚拟现实的可用性
摘要创建可访问的虚拟现实(VR)是人类计算机交互(HCI)研究领域持续关注的问题。然而,关于如何在体验性技术的背景下概念化可访问性,目前尚缺乏深入的探讨。我们在研究中弥补了这一空白:首先分析了当前对可访问性的定义,强调了实现公平和丰富用户体验的重要性;随后通过文献研究(样本量N=28)考察了VR研究中可访问性及其与用户体验关系的现有认知。研究结果表明,现有研究很少从VR的特定背景出发来定义可访问性,且以障碍为中心的研究较为普遍。同时,我们发现用户体验(如沉浸感或参与感)往往未被充分考虑或评估,而用户反馈表明这些因素对残疾用户来说非常重要。基于此,我们提出了一个VR可访问性的工作定义,将用户体验
来源:ACM Transactions on Accessible Computing
时间:2025-11-08