生物通-更多新闻

当前位置：首页 > 今日动态 > 科研动态/国外

Parley+：自适应系统中的不确定性降低

摘要在探索如何应对自适应系统（SAS）中的不确定性问题时，研究界主要集中在调整SAS架构或行为以适应不确定性的解决方案上。相比之下，那些直接减少影响SAS的不确定性的方法（除了通过全面监控其组件和环境之外）仍较少被研究。我们之前的工作提出了Parley，这是一种更为精细、适应性更强的方法，用于降低SAS的不确定性。为此，我们设计了一种包含“不确定性降低控制器”的SAS架构，该控制器在SAS的适应循环中驱动新信息的获取，并采用一种基于工具的方法，通过概率模型检测来合成这些控制器。我们方法生成的控制器能够在降低SAS不确定性的收益与新信息获取成本之间实现最佳平衡，并保证满足系统需求。在本文中，我们

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08
FlashGEMM：通过利用CPU上的数据重用来优化矩阵乘法序列的计算

摘要通用矩阵乘法（GEMM）是高性能计算（HPC）和深度学习（DL）应用中的基本操作。虽然主流的CPU线性代数库（如MKL和OpenBLAS）在处理单个大规模、规则形状的GEMM操作时能够实现高性能，而这些操作在新兴的HPC和DL应用中非常常见。我们提出了FlashGEMM，这是一种针对x86 CPU优化GEMM操作序列的新颖且高效的方法。FlashGEMM引入了一种新的数据打包策略，减少了与数据打包操作相关的内存访问开销。它还设计了新的微内核，以充分利用x86 CPU的向量神经网络指令（VNNI）单元，从而提高了计算与内存的比率（CMR）。此外，FlashGEMM还包括新的循环融合策略，以便

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
通过解释驱动的白盒优化实现高效的自适应

摘要自适应系统越来越多地依赖黑箱预测模型（如神经网络）来进行决策和适应规划。在这种情况下，适应决策及其对周围环境的可能影响难以解释。此外，这些模型的不透明性通常需要使用昂贵的优化技术。计算复杂性的产生是因为无法直接观察或理解黑箱预测模型的内部机制。这要求使用迭代方法来探索可能庞大的搜索空间，并根据多个目标进行优化，从而在效率和成本之间形成关键挑战。在本文中，我们提出了一种基于解释的自适应方法，该方法将与模型无关的可解释机器学习技术嵌入到反馈循环中。具体而言，我们介绍了XDA-II，它是XDA的扩展版本，集成了多种解释来源。这个新版本结合了部分依赖图和特征重要性，以保持可解释性，同时提高效率。除

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08
针对时间序列数据库的高效有损压缩器设计

摘要时间序列数据库（简称TSDB）专为处理快速增长的时间序列数据而设计，通常会采用压缩技术来降低存储开销。然而，现有的压缩器在针对TSDB的压缩性能关键指标（如压缩比或解压缩速度）方面存在局限性，这主要是由于它们的设计与TSDB的特定特性不匹配所致。为此，我们提出了一种有损压缩器Machete。该压缩器能够实现更高的压缩比和更快的解压缩速度，同时保证用户可自定义的、针对数据点的误差范围，从而保留数据的分析价值。首先，Machete采用了基于模式的预测器和高效的混合编码器来监控数据趋势，通过更深入地理解数据从而实现更高的压缩率；其次，它引入了基于SIMD的解压缩加速技术，利用解压缩过程中的重复中

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
RBC：一种适用于ZNS固态硬盘的随机抗干扰块级压缩策略

摘要针对基于ZNS（Zoned NAS Storage）的SSD（Solid State Disk），关于LSM-tree（Log-Structured Merge Tree）优化方面的研究受到了广泛关注。现有研究主要集中在通过确保数据块在各个区域内的生命周期一致性来降低垃圾收集的开销。虽然许多研究探讨了LSM-tree与ZNS SSD之间的级联写放大（cascading write amplification）问题，但很少有研究评估现有写放大减少策略在ZNS上的有效性。块压缩（Block compaction）是一种常用的优化方法，它通过将压缩粒度缩小到数据块级别并重新映射可重用的数据块来减

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
JUNO++：通过光线追踪核心优化ANNS并实现大规模语言模型（LLM）中的高效稀疏注意力机制

摘要近似最近邻搜索（ANNS）是现代智能应用中的关键技术，包括推荐系统和向量数据库。随着大型语言模型（LLMs）的出现，ANNS在实现注意力剪枝机制方面发挥了关键作用，这些机制利用了注意力的稀疏性，例如top-K注意力机制和检索注意力机制。因此，ANNS的效率变得日益重要。在本文中，我们发现了基于产品量化的现有ANNS方法中的一个主要效率问题：即与代码本进行成对距离计算时的冗余计算和数据积累。为了解决这个问题，我们提出了JUNO++系统，该系统包括：i) 一个基于光线追踪核心的端到端ANNS搜索流程，该流程采用了考虑稀疏性的算法；ii) 将基于光线追踪的ANNS搜索流程集成到注意力计算中。在四

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
Ares：利用弹性公平排队机制实现深度学习任务的公平高效调度

摘要调度器在GPU集群中负责模型训练作业的调度，理想的调度器应在公平性和效率方面都表现出色。然而，现有的集群大多只关注其中一个方面，而忽视了另一个方面。为了解决这个问题，鉴于模型训练作业的资源需求通常可以预先估算，我们的方法是优先调度那些在即时公平共享下能够更快完成的作业，这样既能实现“先到先服务”的原则，又能避免某些作业被长期阻塞（即“饥饿”现象）。基于这一理念，我们在本文提出了一种名为Ares的高效且公平的深度学习作业调度器。Ares借鉴了网络公平排队方法中的“虚拟完成时间”概念，该概念支持在作业到达时准确预测其完成顺序。对于那些虚拟完成时间较早的作业，我们允许它们使用比原本所需更多的资源

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
SimHost：一种适用于高性能计算（HPC）网络系统的轻量级端到端仿真框架

摘要随着高性能计算（HPC）系统的规模和复杂性的不断增长，仿真已成为评估网络性能的关键工具，尤其是在无法使用真实硬件的情况下。然而，在大规模网络评估中快速获得高精度结果同时保持低开销仍然是一个重大挑战。为了解决这个问题，我们提出了SimHost，这是一个轻量级的端到端离线仿真框架，具有灵活的通信和主机模型，专为大规模网络仿真设计。SimHost无需实际或虚拟化的执行环境或硬件即可重放应用程序通信事件，能够准确还原真实应用程序执行过程中的消息传递和系统处理开销，从而提供与物理部署一致的评估结果。凭借其跨平台特性和离散事件设计，SimHost可以无缝集成到现有的仿真器中，只需进行最小程度的修改即可

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
针对混合精度量化深度神经网络（DNN），采用定制的RISC-V核心实现高效且灵活的边缘推理

摘要混合精度量化（MPQ）已成为在资源受限的物联网边缘设备上部署深度神经网络的关键技术，它能够在保持精度的同时实现高效的TinyML应用。然而，当前的MPQ解决方案存在以下主要局限性：在支持多种神经架构方面灵活性不足，且缺乏专为边缘部署设计的节能硬件加速机制。为了解决这些挑战，我们提出了一个软硬件协同设计的框架，用于优化混合精度量化神经网络以适应边缘人工智能推理任务。我们的框架引入了以下关键创新：一种自适应的数据重排序方案以提高数据利用率；针对计算密集型低位宽操作符的动态数据流方案；以及针对RISC-V处理器定制的SIMD（单指令多数据）指令扩展，以优化混合精度计算性能。实验结果表明，与现有的

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
HOPPERFISH：一种适用于异构系统的整体性分析框架，具备便携性、可扩展性和稳定性

摘要我们介绍了 HOPPERFISH，这是一个全面的分析框架，它整合了应用程序、运行时、微架构和硬件层面的分析，以简化异构计算系统中强大的特征关联分析。HOPPERFISH 通过捕捉任何异构系统级芯片（SoC）系统堆栈中的特征，提供了对动态工作负载、硬件配置和调度策略的全面洞察，无论是现成的平台还是在 FPGA 上模拟的架构。该框架支持针对实际应用的数据驱动分析，以及对于特征动态变化且无法预先标记的异构系统的无监督学习。作为一个用例，我们在异构系统的异常检测场景中使用了 HOPPERFISH，并在不同的工作负载、硬件和调度条件下构建了一个自动编码器模型，而无

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
基于双目视觉的道路表面状态变化检测在自动驾驶系统中的应用

摘要路面状况监测对于提升交通运输的安全性和效率至关重要，它在自动驾驶和城市基础设施管理中都有应用。现有的监测方法通常依赖于单摄像头系统或人工检查，但这些方法要么无法实现实时监测，要么需要大量人力。该系统重点关注两个关键因素：道路坡度和路面损坏情况，这两者都会显著影响驾驶安全性和驾驶体验，因此及时检测这些情况十分必要。为了确保准确性和可靠性，该系统采用了双摄像头来获取详细的道路环境信息，并结合了城市传感技术。其硬件部署过程将立体视觉数据处理到嵌入式平台上，从而实现了与城市物联网网络的兼容性。这种方法在检测路面变化方面优于单摄像头系统。这项研究的动机源于迫切需要改善城市地区的道路安全和驾驶条件。通

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08
在干扰攻击下，针对列车间通信的弹性控制策略

摘要基于通信的列车控制（CBTC）系统依赖无线通信来提高铁路运营的效率。传统的CBTC系统采用双向的列车与轨旁设备（T2W）通信方式，列车通过这种方式将自身状态信息发送给轨旁设备。而T2T-CBTC系统代表了CBTC技术未来的发展方向，它采用列车之间的通信（T2T）来实现相邻列车之间的状态信息共享。T2T通信简化了传统CBTC网络的架构，并减少了传输延迟。然而，无线通信可能给列车间的通信带来网络安全威胁。本文提出了两种针对T2T-CBTC系统的弹性控制策略，以减轻干扰的影响。这两种策略均基于多智能体深度强化学习技术，旨在在干扰攻击下控制列车的运行，使列车能够继续安全运行而无需紧急制动。一种策略

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08
二级缓存：不适用于指令执行

摘要随着指令数量的不断增加，处理器前端的工作负担日益加重，导致指令获取延迟增加，进而引发流水线停顿。为解决这一问题，传统的做法是将指令存储在缓存体系的各个层级中；但近年来也提出了许多更先进的技术，从指令预取到优先处理指令缓存行等，旨在降低指令获取延迟。在本研究中，我们发现了一部分基准测试对指令获取延迟具有较高的鲁棒性，因此可以采取相反的策略——直接绕过二级缓存（L2）来获取指令。尽管传统观点认为这样做会损害性能，但通过对2120条数据流的详细分析，我们发现有两个因素可以缓解这一影响。首先，普遍存在的有效指令预取机制（如基于获取需求的指令预取，FDIP）意味着只要指令存在于三级缓存（LLC）中，

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
面向异构多核处理器的综合设计空间探索

摘要异构多核处理器（HMPs）的理论最大效率从根本上取决于其硬件设计。然而，HMPs的实际效率在很大程度上受到资源管理（RM）策略的影响。为了减轻对HMPs进行全面设计空间探索的工作量，现有方法通常采用分别独立探索HMP设计和RM策略的途径。但这种方式往往会限制整体的探索范围和效率。在这项工作中，我们提出了HetDSE，这是一个用于HMP设计的综合设计空间探索框架，它能够同时协调探索HMP设计和RM策略。首先，我们确定了实现全面探索所需的要求，包括高质量的设计空间、快速的评估能力和高精度的探索结果。为了满足这些要求，我们提出了基于代表性的设计空间生成方法、统一的基于预测的评估方法以及迭代优化探

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
用于自适应分片区块链支持边缘计算的批量事务处理

摘要边缘计算（Edge Computing, EC）为移动多媒体通信提供了一种高效且低延迟的计算架构。基于区块链的边缘计算能够提升系统的安全性和数据隐私保护，但吞吐量仍然是区块链面临的主要挑战之一。分片技术是一种有前景的解决方案，可以在增加吞吐量的同时带来复杂的跨分片交易验证过程。流行的两阶段提交协议（Two-Phase Commit, 2PC）可以确保跨分片交易处理的一致性。然而，在现有的基于2PC的方案中，分片内的共识调用次数与交易数量成正比，这给系统吞吐量和分片区块链在动态交易处理需求下的适应性提升带来了巨大挑战。在本文中，我们提出了一种基于2PC的交易处理方案，使得每次执行共识时可以同

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08
基于请求内部延迟感知的缓存管理机制，以提高固态硬盘（SSD）的输入输出（I/O）响应速度

摘要固态硬盘（SSD）提供了高度的通道级并行性，会将一个大型请求的子请求分发到不同的闪存通道中，以最大化并行性和利用率。然而，由于各个通道的队列没有进行协调，因此调度器可能会遇到不同的等待时间，也无法始终保持工作负载的平衡。由于只有当最后一个子请求完成时，整个大型请求才被视为完成，因此一些提前完成的子请求不得不等待最后一个子请求，这种现象被称为“请求内延迟”，从而影响I/O响应速度。本文提出了一种具有请求内延迟感知功能的缓存管理方法，以最大化通道级的读取并行性，从而改善用户体验，并平衡所有SSD通道上的I/O工作负载。当属于同一大型读取请求的某些子请求在拥堵的通道上被阻塞（表明存在请求内延迟）

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
《自主与自适应系统的反思、快速参考指南及未来展望》

摘要自主系统和自适应系统的研究人员与工程师一直对能够独立解决问题的计算系统抱有浓厚的兴趣。在这篇文章中，我们探讨了过去二十年中出现的三类主要此类计算系统：自组织系统、自适应系统以及利用人类与人工智能支持的自主/自适应系统集体能力的共生人机交互（Symbiotic HAI）系统。对于每一类系统，我们重点介绍了其基础原理、方法以及系统工程设计。最后，我们分析了这一迷人领域未来研究面临的三个关键挑战：技术挑战、伦理挑战和监管挑战。这些挑战为自主系统和自适应系统带来了新的基础性及工程问题。

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08
GTSM：一种基于GPU的多边形中心化时间子图匹配框架

摘要时间子图匹配旨在识别时间网络中同时满足结构和时间约束的子图，其应用范围从社交网络分析到欺诈检测。由于这是一个NP难问题，需要对大型图进行大量计算，因此GPU加速变得至关重要。然而，现有的以边为中心的方法存在计算冗余、内存管理效率低下以及在大型图上可扩展性有限的问题，这些因素阻碍了GPU加速的效率。为了解决这些挑战，我们提出了GTSM，这是一个针对GPU优化的时间子图匹配系统，具有三项创新：（1）一种多边为中心的范式，通过多边压缩以及高效的解压缩算法来减少冗余搜索空间；（2）一种基于内存限制的优化方法，以最大化GPU资源利用率；（3）一种异构的BFS-DFS执行模型，其中CPU执行广度优先搜

来源：ACM Transactions on Architecture and Code Optimization

时间：2025-11-08
AdapCP：在分布式边缘服务器上利用自适应CNN分区进行协作推理

摘要由于终端设备的资源有限，端侧卷积神经网络（CNN）推理的任务正朝着端到端的协作方向发展。然而，现有的协作方法主要侧重于将CNN推理任务从终端设备卸载到单一的边缘服务器上，这导致附近边缘服务器之间的计算资源利用效率低下。此外，将CNN推理任务卸载到第三方服务器可能会引发隐私问题。为了解决这些挑战，我们提出了一个名为AdapCP的框架，该框架引入了一种协作性和自适应的并行加速策略，充分利用了终端设备和多个边缘服务器。AdapCP包括两个阶段：1）将任务卸载到附近的服务器；2）并行处理CNN推理。在卸载阶段，我们使用整数线性规划来找到层间级别的划分点。在并行处理阶段，我们首先研究了针对卷积层和全

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08
通过注意力去噪端点分布实现混合多智能体的同步轨迹预测

摘要轨迹预测对于与联网自动驾驶车辆（CAVs）相关的应用至关重要。在多智能体场景中，轨迹预测能够显著减少高速公路或混合开放环境中的碰撞和拥堵。它是自动驾驶的基础，使车辆能够安全高效地在复杂环境中导航。以往的方法主要评估了智能体的时空动态，但常常忽略了其内在意图和不确定性，从而限制了预测效果。我们提出了去噪端点分布模型（Denoised Endpoint Distribution model）用于轨迹预测，该模型能够同时捕捉智能体的时空特征及其内在意图和不确定性。通过使用扩散模型（Diffusion model）和Transformer模型来关注智能体的端点而非整个轨迹，我们的方法显著降低了模型

来源：ACM Transactions on Autonomous and Adaptive Systems

时间：2025-11-08

页次：2751/9733 共194656篇文章
分页：[<<][2751][2752][2753][2754][2755][2756][2757][2758][2759][2760][>>][首页][尾页]

高级人才招聘专区