-
基于召回损失的藏戏面具自适应语义信息提取
摘要随着人工智能的发展,自然语言处理使我们能够更好地理解和利用语义信息。然而,传统的目标检测算法在处理藏戏面具数据集时无法取得良好的性能,因为这些数据集具有样本数量有限、图案对称以及类间距离较大的特点。为了解决这个问题,我们提出了一种新的特征表示模型,并结合了召回损失函数来检测不同的面具特征。在该模型中,我们构建了一个具有融合层(fused layers)的自适应特征提取网络来提取特征。此外,我们还设计了一种轻量级的、高效的注意力机制来增强关键特征的重要性。同时,我们引入了召回损失函数以增加不同类别之间的差异性。最后,在藏戏面具数据集上的实验结果表明,我们提出的模型优于其他现有模型。
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于深度学习的预测性维护的综合性研究
摘要随着工业4.0的到来以及向工业5.0的推进,各行业产生的数据量惊人地增加。这些海量数据显著提升了机器学习和深度学习模型在预测性维护(PdM)中的应用效果。预测性维护在延长工业设备和机器的使用寿命方面发挥着至关重要的作用,同时也有助于降低非计划性停机带来的风险。由于预测性维护具有跨学科的特性,人们从多个角度对其进行了研究:本次综合调查旨在提供最新的概述,重点介绍所有基于学习的工业预测性维护策略,并分析其优缺点。该调查遵循系统评价和荟萃分析的优先报告项目(PRISMA)方法论流程,确保对相关文献进行系统而全面的审查。首先,我们探讨了用于预测性维护的主要学习模型,主要包括卷积神经网络(ConvN
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
基于迁移学习的阿拉伯手语识别系统中的改进算术优化算法
摘要阿拉伯手语(ArSL)在利用深度学习(DL)模型识别手势和符号方面取得了突破性研究成果。手语是一种独特的交流工具,它帮助听力障碍者与普通人之间的沟通。阿拉伯手语识别系统对不同群体来说具有重要意义,因为它使听力障碍者能够有效地进行交流。在手语中,手势的特点包括手的位置、形状、动作、身体部位和面部表情的差异,这些因素对计算机视觉(CV)中的视觉识别带来了挑战。自动化手势检测技术需要两个主要步骤:特定特征的识别和输入数据集的分类。此前已经提出了多种用于检测和分类手语的方法。在这项研究中,开发了一种基于改进元启发式算法和迁移学习的阿拉伯手语识别系统(IMTL-ArSL)。IMTL-ArSL方法的主
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
Diff-Acc:一种用于无条件扩散模型的高效FPGA加速器
摘要在人工智能生成内容(AIGC)的时代,扩散模型在图像、视频、文本、材料建模和分子设计等多种任务中取得了显著的成功。然而,由于逆向去噪过程需要大量迭代,扩散模型计算成本较高,这限制了其进一步的发展。因此,迫切需要加速扩散模型的运行速度,尤其是在需要实时计算的边缘计算场景中。尽管研究人员通过采用高效采样或模型量化等方法在算法层面进行了优化,但仍然存在精度下降的问题。更重要的是,他们忽视了硬件层面的加速挑战。本研究通过引入Diff-Acc来弥补这一空白,这是首个针对无条件扩散模型的FPGA加速器,它采用了一种新颖的分步量化方法,仅需最少的校准数据即可实现最先进的(SOTA)PTQ量化精度。此外,
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
边缘计算网络中基于扩散模型的文本到图像生成AI服务的中间结果缓存
摘要 生成式人工智能(GenAI)的显著进步推动了文本到图像生成领域的革命性应用,例如Stable Diffusion和Imagen。特别是扩散模型能够通过反向连续去噪过程,根据自然语言描述生成令人惊叹的图像。然而,基于扩散模型的GenAI服务的计算负担对其实际应用构成了重大障碍。在这项工作中,我们提出了一个新颖的边缘计算辅助GenAI框架,以实现高效的GenAI服务提供。在该框架中,扩散模型生成的中间输出可以缓存在边缘服务器上,并被多个用户重复使用,从而提高边缘计算资源的利用率。在假设存在因果相关的辅助信息的情况下,我们考虑了基于扩散模型的GenAI任务的最
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
结合深度学习驱动的细粒度情感识别的黑猩猩优化算法在阿拉伯语语料库中的应用
摘要近年来,推文的情绪分析和分类已成为一个重要的研究领域。阿拉伯语在Twitter上的情绪分类存在困难,相比其他语言需要更多的预处理步骤。情绪检测是自然语言处理(NLP)中的一个重大挑战,它使机器能够识别文本中的情感表达。这项任务包括识别和判断人类的情绪,如恐惧、愤怒、悲伤和喜悦。近年来,推文中表达的情感和情绪受到了广泛关注。阿拉伯地区在国际政治中扮演着重要角色,全球经济也需要关注阿拉伯语中的情感和情绪表达。基于词典的方法和机器学习技术是解决情绪分类问题的两种常见方法。本研究介绍了一种结合深度学习技术的阿拉伯语细粒度情绪识别算法(COADL-AFER)。该算法的主要目标是检测阿拉伯语推文中的多
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
边缘辅助自动驾驶中消息同步的反应延迟分析
摘要在联网自动驾驶车辆的领域中,整合车载传感器和边缘传感器的数据对于环境感知和导航至关重要。然而,由于时间戳的差异,尤其是当涉及边缘设备时,这些传感器数据的融合面临着挑战。机器人操作系统(ROS)通过诸如“近似时间”和“精确时间”之类的同步策略来解决这一问题,同时还采用了较新的“同步最早到达的消息”(SEAM)方法。了解SEAM在边缘辅助环境中的性能非常重要,但目前对此的研究还相对不足。本文对ROS中的SEAM同步机制进行了全面分析。我们的研究重点关注ROS消息同步在边缘辅助自动驾驶中的关键延迟指标,特别是传递延迟和反应延迟,这些指标有助于分析系统层面的端到端延迟和反应时间。我们在不同的设置下
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
针对边缘设备的自监督语音变换器的延迟感知剪枝与量化
摘要自监督学习Transformer在语音处理(speech SSL)领域的应用日益广泛,但其高昂的计算和内存需求限制了其在资源受限的边缘设备上的部署。我们提出了一种考虑延迟的压缩框架,该框架结合了结构化剪枝和量化技术来应对这些挑战。该框架基于一个延迟模型,该模型综合考虑了剪枝和量化的综合效应,能够动态识别并移除不太关键的模块,同时保持任务性能,避免了以往方法中过度剪枝或剪枝不足导致的效率低下问题。与以往仅专注于训练后压缩(无需微调数据)或仅在有微调数据情况下适用的方法不同,我们的方法在这两种环境下均表现出色。实验结果表明,在通用压缩任务中,我们的方法在Hikey970边缘开发平台上实现了4.
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
ACE-of-SPADEs:加速空间稀疏卷积以实现3D场景理解
摘要对3D场景的语义理解是许多应用(如机器人技术、自动驾驶、AR/VR)的基础。目前用于不同3D场景理解任务的先进方法采用在点云上运行的3D卷积神经网络(CNN)。在点云等空间稀疏数据上进行卷积操作时,数据访问和计算模式不规则,导致CPU/GPU实现中的资源利用率和能效较低。现有的针对权重/激活值稀疏性设计的CNN加速器无法高效地重新用于处理3D空间稀疏数据,因为它们在非零操作数的定位方式和工作调度粒度上存在根本性差异。为了解决由空间稀疏性引起的数据流问题,并满足空间稀疏卷积所需的专用微架构需求,我们提出了Ace-of-Spade(AoS)——一个算法-数据流-架构协同设计的系统。AoS通过使
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
SLIM:一种异构加速器,通过自适应阈值处理实现稀疏大型语言模型的边缘推理
摘要大型语言模型(LLMs),由Transformer解码器组成,在理解和生成人类语言方面展现了无与伦比的性能。然而,在资源受限的嵌入式设备上高效地进行LLM推理仍然是一个挑战,因为模型规模庞大,且前馈网络(FFN)和多头注意力(MHA)层会导致大量内存密集型操作。现有的加速方法将LLM推理任务卸载到配备昂贵内存和处理单元的异构计算系统上。然而,最近的研究表明,由于LLM在推理过程中存在显著的稀疏性,大部分硬件资源并未得到充分利用。LLM的这种稀疏性为实现内存高效推理提供了良好的机会。在这项工作中,我们提出了SLIM,这是一种针对边缘计算场景优化的算法和硬件协同设计方案。SLIM利用LLM的稀
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
通过跨模态学习和自然语言处理揭示变革性洞察,以提升供应链智能
摘要随着当今商业环境的快速发展,供应链变得越来越全球化、复杂且覆盖范围广泛,这使得企业必须能够应对各种中断和不确定性。供应链过程中存在的主要问题在于缺乏透明度和可见性,这导致了流程中的延误和低效率。为了解决这些问题,本文提出了一种改进的供应链智能系统,该系统利用跨模态学习(Cross-Modal Learning, CML)和自然语言处理(Natural Language Processing, NLP)等学习方法来揭示有价值的见解。这些技术的实现是通过Python软件完成的。分析内容包括增强型供应链分析、销售收入与SKU(库存保有单位)之间的关系分析、不同模式下的成本分析以及交货时间与供应商
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
分析跨模态的心理情感预测:在自然语言处理(NLP)中利用情感数据集
摘要研究人类的情感和感受是心理学领域中的一个关键要素,它具有重要的意义,例如评估心理健康和改善人机交互。最近,人们越来越关注如何通过各种媒介(包括文本、音频、视频和生理信号)来预测心理情绪。通过利用自然语言处理(NLP)的进步并分析多模态数据,本研究探讨了将情感数据集整合到NLP框架中以改进心理情绪预测的方法。本文展示了某些NLP技术在预测心理情绪方面的应用,例如深度生成对抗网络(D-GANs)、长短期记忆(LSTM)和门控循环单元(GRU)。所考虑的算法通过Python实现,用于评估结果的参数包括模型损失、混淆矩阵、准确率、精确度、召回率和F1分数。我们进行这项分析的目的是为了更深入地了解现
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
CantonMT:研究粤英神经机器翻译中的回译机制与模型切换策略
摘要本文研究了从粤语到英语(以及反向)的机器翻译模型的开发与评估过程,提出了一种解决资源匮乏语言翻译问题的新方法。尽管基于Transformer架构的神经机器翻译(NMT)模型近期取得了显著进步,但由于缺乏相关资源,拥有超过8000万母语使用者的粤语仍缺乏先进的商业翻译模型。本研究的主要目标是开发一个能够有效将粤语翻译成英语的模型,并将其与现有的商业模型进行对比评估。为此,通过整合在线上的各种语料库并进行预处理和清洗,构建了一个新的平行语料库;同时通过网页抓取方式收集了单语粤语数据集,以辅助合成平行语料库的生成。在数据收集完成后,采用了多种方法进行模型训练,包括模型微调、回译和模型切换等。翻译
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
印地语模因中冒犯性内容的多模态检测
摘要社交媒体平台极大地促进了诸如思想交流、商业宣传、与同龄人联系以及获取最新信息等活动。在一种被称为“模因”(meme)的独特媒体形式中,信息通过图像与文本或文本与图像之间的关联关系进行传播。流行的模因往往是由用户自发传播的,而非通过营销或广告手段推动的,这体现了社交媒体用户对模因的积极参与程度。鉴于模因的广泛传播,人们迫切需要一种方法来识别并抵制在社交媒体平台上传播的仇恨言论。本研究提出了一种多模态机器学习方法来检测具有攻击性的模因,其中模因的文本采用印地语的天城文(Devanagari)书写。研究人员创建了一个包含9262张图片的数据集,并将这些图片标记为具有攻击性或非攻击性。由于该数据集
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
一种用于嵌入式系统芯片(SoC)内存中全面数据收集和保留的通用策略
摘要在现代汽车系统级芯片(SoC)设计中,大容量的嵌入式闪存已成为标准配置。由于这些闪存占据了芯片面积的相当大一部分,因此它们对SoC的整体产量有着重要影响,使其成为生产过程中的关键组件。为了确保其可靠性,嵌入式闪存会经过严格的测试。通过这些测试收集的数据对于芯片设计师和测试工程师来说至关重要,有助于完善设计并了解最常见的故障机制。一种常见的数据收集方法是基于列表形式收集故障坐标来生成位图。虽然也存在其他更高效的压缩方法,但这些方法通常需要使用专用的内部存储器来存储测试结果。不幸的是,目前文献中提到的所有方法都无法在多次测试过程中保留诊断数据,这需要频繁且耗时的与外部测试设备进行通信,从而增加
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
停止仇恨,传播希望:一种用于检测英语和德拉维达语中希望演讲的集成模型
摘要社交媒体的兴起导致了大量用户生成的内容,其中情感范围从喜悦到愤怒不等。负面评论往往针对个人、社区或品牌,这促使人们努力检测有害言论,如仇恨言论、网络欺凌和辱骂行为。最近,一种被称为“希望言论”的新型言论引起了研究界的关注。希望言论包含积极的肯定语、安慰的话语、鼓励或激励,旨在帮助人们在生活中的困难时期。然而,针对希望言论的检测研究相对较少,尤其是在资源匮乏的语言中。因此,本文试图开发一种集成模型,用于检测某些资源匮乏语言中的希望言论。本文收集了四种不同语言(英语、卡纳达语、马拉雅拉姆语和泰米尔语)的数据,并尝试了多种基于深度学习的模型。所提出的集成模型结合了表现更好的模型的优势。实验结果表
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于知识的时空注意力网络在利用中国电子病历进行疾病预测中的应用
摘要利用电子病历(EMR)开发自动化疾病预测系统时,一直面临特征数据稀少的问题。图神经网络(GNN)能够处理非结构化数据并推断缺失的特征,这是一种有效解决上述问题的方法。然而,如果两个实体节点之间的关联跨越多个句子,GNN难以准确捕捉这些关联,这可能会丢失一些对疾病预测至关重要的语义信息。此外,电子病历中节点的时间依赖性不仅为疾病预测提供了更多信息,还增强了节点表示的语义区分能力。本研究提出了一种基于知识的时空注意力网络(KSAN)用于疾病预测。首先,利用知识图谱和关系补全技术建立节点之间的更多关联,以提供潜在的疾病相关事实;其次,从时空维度全面聚合节点间的依赖关系;同时,通过匹配关键因素集来
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
阿拉伯手稿的对齐、分割、识别与分类
摘要本研究提出了一种新的方法,用于对阿拉伯手稿进行对齐、分割、识别和分类。对齐过程包括去除噪声、校正旋转和倾斜,并将手稿与标准模板对齐。这种对齐对于判断手稿是已知还是未知至关重要。所提出的方法称为“自动化阿拉伯手稿对齐”(ArM),它接收多张输入图像,对这些图像进行对齐,优化其内部参数,并分析每个参数。然后,该方法识别手稿中的感兴趣区域(RoI),并将其与相应的印刷或手写内容对应起来。最后,使用合适的光学字符识别(OCR)系统来识别每个区域内的内容。研究的第一阶段专注于将历史和古代手稿与OCR系统对齐。在第二阶段,将对齐与OCR技术结合使用,以从阿拉伯手稿的每个感兴趣区域中提取和识别文本。此外
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
ACCESS-AV:自适应通信与计算协同设计,用于智能工厂中可持续的自主车辆定位
摘要在支持5G网络的智能工厂中,自主配送车辆(ADVs)被越来越多地用于货物运输。其中,计算密集型的定位模块为优化提供了重要机会。我们提出了ACCESS-AV,这是一种高效能的车辆对基础设施(V2I)定位框架,它充分利用了智能工厂环境中的现有5G基础设施。通过 opportunistically(此处“opportunistically”可能为“机会主义地”或“根据需要”等含义,需结合上下文确定准确译法)访问定期广播的5G同步信号块(SSBs)来进行定位,ACCESS-AV无需专门的路边单元(RSUs)或额外的车载传感器,从而实现了能源效率的提升和成本降低。我们采用基于到达角(AoA)的估计方
来源:ACM Transactions on Embedded Computing Systems
时间:2025-11-08
-
运行时学习机器(Runtime Learning Machine)
摘要本文提出了一种用于安全关键型、具备学习能力的网络物理系统(CPS)的运行时学习机器。该学习机器由三个交互组件构成:高性能(HP)学生代理、高可靠性(HA)教师代理以及协调器。HP学生代理是一个高性能但未经完全验证的物理驱动深度强化学习(Phy-DRL)代理,它在实际的网络物理系统中利用来自实时物理环境的传感器数据执行运行时学习。另一方面,HA教师代理是一个经过验证但设计较为简化的代理,仅专注于安全关键功能。其创新之处在于能够实时修正HP学生代理的不安全学习行为,并保障系统安全性。协调器负责管理HP学生代理与HA教师代理之间的交互。凭借这三个交互组件的协同工作,该运行时学习机器具有以下显著特
来源:ACM Transactions on Cyber-Physical Systems
时间:2025-11-08