-
MM-MoE:一种面向疾病的多任务多视图框架,用于通用心脏分割
摘要心血管疾病通常会导致心脏结构发生特定变化,但这些由疾病引起的变化往往不如多源数据采集或图像中的噪声(如图像亮度、对比度和视野范围的波动)所带来的变化那么明显。这使得提取关于器官和疾病的关键细节变得更加困难,给传统的分割和领域泛化方法带来了重大挑战。为了解决这些挑战,我们提出了MM-MoE,这是一个面向疾病的多任务、多视图框架,旨在实现更准确的心脏结构分割。具体来说,我们引入了一种基于专家混合的多任务联合对抗学习策略(MTMoE-J&A),使模型能够学习更具普遍性和领域不变性的疾病特异性特征,并采用多视图特征融合网络(MVFusion)有效整合来自不同视图的互补空间信息,从而提高分割的准确性
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
纯变压器在分离式和在线多目标跟踪中是否有效?
摘要多目标跟踪(MOT)的最新进展在分离的基于检测的在线跟踪范式中取得了显著的成功,尤其是在短期关联任务上。然而,长期跟踪仍然是一个挑战。虽然基于图的方法通过将轨迹建模为全局图来解决这一问题,但由于它们的非在线特性,这些方法不适用于实时应用。在本文中,我们回顾了轨迹图的概念,并提出了一种新的视角,即将它们表示为有向无环图。这种表示可以使用按帧排序的对象序列和二进制邻接矩阵来描述。我们观察到,这种结构与Transformer注意力机制天然契合,使我们能够使用经典的Transformer架构来建模关联问题。基于这一见解,我们引入了一个简洁的Pure Transformer(PuTR)来验证Tran
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
触觉网络协议:全面综述及面向下一代元宇宙应用的未来发展方向
摘要本文对元宇宙环境中的触觉网络协议进行了系统性的回顾。随着触觉技术越来越多地应用于远程协作和机器人手术等领域,对可靠、低延迟数据传输的需求日益增强。本文全面分析了现有的触觉协议和框架,重点探讨了它们的开发过程、实现方式以及用于优化服务质量(QoS)参数(如延迟、抖动、数据包丢失率、吞吐量和带宽)的方法。通过分析这些协议在实时应用中的优势和局限性,本文指出了需要改进的关键领域,并提出了未来的发展方向,包括结合机器学习(ML)和人工智能(AI)来实现适用于元宇宙等高需求环境的下一代触觉通信技术。
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
具有因果推断和跨模态对齐能力的无偏见实体化视觉表示学习
摘要在新型环境中,目标导航(ObjectNav)依赖于对场景的全面理解,包括精确的视觉感知和对空间-语义规律的准确建模。然而,现有方法过度关注手工制作的场景表示,从而忽视了隐藏在视觉观测中的感知偏差的负面影响。家庭环境中手工制作的语义分布会导致虚假关联偏差,而动态视角变化则引发语义冲突偏差。有偏的视觉感知显著限制了导航策略的泛化能力。在本文中,我们提出了无偏具身视觉表示(UEVR)方法,该方法通过因果推理和跨模态对齐来克服感知偏差。具体而言,我们通过提出的无偏因果R-CNN框架对多目标特征的相关因素建立了合理的假设,并在导航过程中利用后门干预因果调整(BICA)模块消除虚假关联偏差。为了解决2
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
基于查询的知识共享在开放词汇多标签分类中的应用
摘要在计算机视觉中,识别训练过程中未出现过的标签(即多标签零样本学习)是一项非平凡的任务。近期研究越来越多地关注利用视觉语言预训练(VLP)模型以开放词汇表的方式识别未见过的标签。然而,诸如知识蒸馏之类的方法仅带来了适度的性能提升。如何充分利用VLP模型的潜力来实现有效的多标签零样本学习仍然是一个未解决的问题。在这项工作中,我们提出了一个先进的基于查询的知识共享框架,以探索VLP模型中的多模态知识,用于开放词汇表的多标签分类。具体来说,我们引入了一组与标签无关的查询令牌,这些令牌旨在从输入图像中捕捉关键且具有信息量的视觉特征。这些令牌随后会在所有标签之间共享,从而帮助系统选择相关的标签作为准确
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
具有高质量伪标签的双分支点监督动作检测网络
摘要基于点监督的时间动作检测方法依赖于稀疏的时间戳注释,从而降低了完全监督方法所需的注释成本。然而,由于以下两个原因,点监督方法与完全监督方法之间仍存在差距:i) 伪标签的稀疏性;ii) 时间信息的利用不足。我们提出了一种采用高质量伪标签的双分支架构来缩小这一差距。具体而言,本研究包括以下内容:1) 一种基于注意力引导的标签传播机制,该机制通过结合Transformer生成的注意力图来补充伪标签;2) 一种基于Mamba的伪标签生成机制,该机制增强了局部时间模式的识别能力,从而提高了伪标签的可靠性;3) 一种全局完整性约束,用于确保时间一致性和动作的连贯性。在三个基准数据集上的广泛实验验证了我
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
在虚拟现实中提升网格显著性:介绍一种新型预测网络和数据集
摘要在计算机图形学中,多边形网格作为一种流行的表示方法,能够有效地描绘复杂的纹理和几何形状。在对网格的关键区域进行几何处理时,需要考虑与显著性相关的人类视觉感知。因此,我们构建了一个新的网格显著性数据集,该数据集通过更全面的采集流程获得:在虚拟现实空间中,受试者可以从任意视角观察网格模型,并且这些观察过程是由六自由度的眼动追踪设备记录的。此外,我们提出了一种网格显著性预测模型,该模型能够准确推断出复杂且不规则网格表面的视觉注意力密度图。该模型将来自多尺度邻域范围的表面曲率和三角形面形状信息作为局部几何特征进行整合,同时利用表面空间位置作为全局特征。我们的工作旨在保护关键区域,并在基于显著性的任
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
ADTC:用于点监督视频时刻检索的自适应双阶段树构建
摘要视频片段检索(VMR)是一项关键的跨模态任务,具有广泛的理论和应用价值。虽然完全监督的方法能够取得优异的性能,但它们受到时间边界标注高成本的限制。弱监督方法虽然能够缓解这一问题,但由于标注精度较低而效果不佳。近期,基于单帧标注的点监督方法作为一种成本效益较高的替代方案应运而生,展现出广阔的应用前景。然而,这些方法往往无法有效利用标注帧进行跨模态语义对齐,同时忽略了视频的全局结构和层次化片段关系,导致在标注稀疏的情况下检索精度不理想。为了解决这些问题,我们提出了自适应双阶段树构建(ADTC)模型,这是一个专为点监督VMR设计的新型框架。首先,该模型引入了双阶段假设树架构,能够无缝整合局部和全
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
韩国职业治疗师对康复领域中人工智能的知识、态度与实践(KAP):一项在线横断面调查
人工智能在医疗领域的应用正日益深入,特别是在康复治疗中,它正在展现出巨大的潜力。这项研究聚焦于职业治疗师对人工智能的认知、态度和实践,以及这些因素如何影响他们采用AI技术的意愿。研究团队通过在线问卷调查的方式,收集了来自韩国的224名职业治疗师的数据,以评估他们在AI领域的知识水平、态度倾向以及实际应用情况。研究结果揭示了职业治疗师在AI认知和实践方面存在一定的局限性,但整体态度较为积极。此外,研究还探讨了不同性别和教育背景对这些变量的影响,以及AI在职业治疗中可能带来的挑战和机遇。职业治疗师作为康复治疗的重要组成部分,他们的态度和接受度在决定AI技术的推广速度和实际应用中发挥着关键作用。尽管
来源:Medicine
时间:2025-11-08
-
东亚人群中收缩压与过敏性鼻炎易感性之间的因果关系:一项双向双样本孟德尔随机化研究
### 研究背景与意义过敏性鼻炎(Allergic Rhinitis, AR)是一种常见的慢性疾病,尤其在成人中影响广泛。随着环境变化和生活方式的演变,AR的发病率在全球范围内持续上升,已成为影响公共健康的重要问题之一。同时,高血压(Hypertension)作为全球疾病负担的主要原因之一,其影响范围也在不断扩大。尽管两者在临床表现和流行病学特征上有所不同,但它们在病理生理机制上可能存在一定的联系。近年来,一些研究指出,过敏性炎症可能通过多种机制影响心血管系统,例如炎症介质的释放、氧化应激的增加以及免疫反应的改变等。这些因素可能在一定程度上促进高血压的发生或加重其病情。然而,目前关于AR与高血
来源:Medicine
时间:2025-11-08
-
银屑病患者的血清铁蛋白水平与疾病严重程度:一项横断面研究
这项研究探讨了血清铁蛋白(SF)水平与银屑病严重程度之间的关系。银屑病是一种慢性、复杂的炎症性皮肤病,对患者的生活质量产生显著影响。研究表明,银屑病患者的皮肤组织中存在铁的过度积累,但此前尚未有临床研究明确指出血清铁蛋白水平与银屑病之间的联系。因此,本研究旨在通过横断面设计,分析血清铁蛋白水平与银屑病严重程度之间的相关性,为银屑病的早期检测和干预提供新的依据。10定义为重度。研究者对所有参与者进行了空腹血清铁蛋白水平的检测,并利用统计学方法对相关指标进行了分析。研究结果显示,银屑病患者的血清铁蛋白水平显著高于健康对照组。具体而言,银屑病组的平均血清铁蛋白水平为251.39 ± 114.07 n
来源:Medicine
时间:2025-11-08
-
毅力(grit)和职业规划(job crafting)对韩国医院护士的组织承诺(organizational commitment)和工作满意度(job satisfaction)的影响
在现代医疗体系中,护士作为一线工作人员,其职业满意度和组织承诺是影响医院整体运营效率的重要因素。然而,近年来,护士离职率高企以及工作倦怠现象日益严重,成为医疗机构面临的核心问题之一。尤其是在工作强度不断上升、患者需求多样化以及外部评价体系日益严格的背景下,如何有效提升护士的稳定性和积极性,成为医院管理者亟需解决的课题。针对这一挑战,研究者们逐渐将目光投向了心理特质与行为策略的结合,探索其在改善护士工作状态中的潜在作用。其中,**坚韧**(grit)作为一种反映个体在面对困难时坚持和专注的心理特质,以及**工作重塑**(job crafting)作为一种主动调整工作内容以适应个人能力与价值观的行
来源:Medicine
时间:2025-11-08
-
CSRef:用于语音指代表达理解的对比语义对齐
摘要参考表达式理解(Referring Expression Comprehension, REC)旨在根据自然语言描述在图像中定位目标对象。尽管现有的REC方法主要依赖于文本输入,但口语作为一种天生自然且易于获取的交流方式,仍尚未得到充分探索。为填补这一空白,我们提出了一种新的任务——语音参考表达式理解(Speech Referring Expression Comprehension, SREC),它允许使用口语作为输入来进行对象定位。为了推进这项任务,我们提出了一种新的方法CSRef,并为此设计了专门的数据集和评估标准。CSRef将全局对比语义对齐(Global Contrastive
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
高效客户端选择在异步联邦学习中的应用——用于自适应比特率流传输
摘要近期,深度强化学习(DRL)被应用于提升自适应比特率流媒体(ABR)的体验质量(QoE),通过根据实时网络状况动态调整视频质量等级来实现这一目标。为了构建一种基于DRL的先进ABR算法(DRLABR),该算法必须能够学习客户端实际的网络环境和视频流媒体行为。然而,直接从客户端收集此类数据会面临诸多挑战,包括隐私问题、高带宽消耗以及“落后者效应”——即某些客户端的网络条件较差会延迟训练过程,因为DRLABR的性能高度依赖于网络交互。为了解决这些限制,我们提出了一种基于联邦学习(FL)框架的分布式训练方法。客户端无需收集原始数据,而是独立训练自己的DRLABR模型,并仅将模型更新发送到中央服务
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
通过XAI引导的扰动对视频Transformer模型进行联合时空对抗性攻击
摘要在动作识别系统中,视频Transformer模型的广泛部署要求我们全面了解它们对对抗性攻击的脆弱性。与传统基于CNN的视频模型不同,Transformer通过自注意力机制处理时空依赖性,从而形成了不同的对抗性攻击脆弱性特征。本研究探讨了视频Transformer的对抗性鲁棒性。我们开发了一种新型的联合时空攻击方法,专门针对Transformer的注意力机制进行攻击。通过同时干扰空间和时间特征,该方法在Kinetics-400数据集上的自动语音识别(ASR)任务中取得了76.30%的准确率,优于逐帧攻击和现有的基于查询的攻击方法。为了解释这些攻击的机制,我们引入了基于可解释AI(XAI)分析
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
关于深度多模态生成与检索的特刊介绍
摘要本社论介绍了由ACM Transactions on Multimedia Computing, Communications, and Applications于2024年主办的关于“深度多模态生成与检索”(Deep Multimodal Generation and Retrieval)的特刊。信息生成(Information Generation, IG)和信息检索(Information Retrieval, IR)是信息获取的两大关键方法,即通过生成或检索来创建内容。尽管传统的信息生成和检索技术在语言处理领域取得了巨大成功,但对不同模态(如文本、图像、音频和视频)中多样化数据源的
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
双层路由注意力机制与增强的时空不一致性学习在深度视频帧内干扰(Deep VFI)检测中的应用
摘要随着基于深度学习的视频帧插值(Deep VFI)技术的成熟,合成过程中存在的时空不一致性问题得到了显著改善,但这给现有的VFI检测器带来了挑战。本文提出了一种基于双级路由注意力机制和增强型时空不一致性学习(BRA-ST)的双流识别网络来应对这一挑战。具体而言,Deep VFI中的时空不一致性主要体现在运动区域和移动物体边缘;因此,引入了高通滤波器来增强这些特征,并利用具有双级路由注意力的三层金字塔结构进行学习。为了充分利用Deep VFI视频中的时间不一致性,时间流中的时间差分模块与ConvGRU结合使用,以提取连续多帧之间的时间依赖特征。此外,两个流的中层通过通道注意力进行交互和聚合,最
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
通过特征一致性表示和软标签回归提前预测交通事故
摘要 利用行车记录仪视频进行早期交通事故预测对于提升智能车辆的安全性至关重要。准确预测交通事故可以显著减少事故发生率,从而提高整体道路安全。然而,尽管研究人员通过采用不同的特征提取方法在同一帧中捕获更多视觉信息,但同一帧内特征之间的一致性以及不同帧之间特征之间的差异尚未得到充分重视。为了解决这一关键问题,我们将对比学习引入到交通事故预测领域,并提出了一种新颖的特征融合模块,以实现多样化特征的深度整合。我们的方法将同一帧内的特征视为正样本对,由于相邻帧之间存在高度相关性,因此将它们视为次正样本对;而将时间上相隔较远的帧内的特征视为负样本对。这种方法有效增强了模型
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
提升前景-背景分离能力以增强伪装物体的检测效果
摘要在自然界中,某些物体展现出的图案与它们的背景极为相似,这种现象通常被称为“伪装物体检测”(Camouflaged Object Detection,简称COD)。我们认为,现有的COD方法在这些物体上的识别能力不足,这归因于无法有效区分前景和背景的表示。为了解决这个问题,我们提出了一种新的前景-背景分离网络(Foreground-Background Disentanglement Network,简称FBD-Net),该网络通过增强前景与背景的分离学习来提高识别能力。具体而言,我们设计了一个基于边缘引导的前景-背景解耦(Edge-guided Foreground-Background
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08
-
虚拟现实领域的人工智能:现状、挑战与未来展望
摘要人工智能(AI)在虚拟现实(VR)领域有着广泛的应用,尤其是在分析其实现进展、现有局限以及未来发展路径方面。本研究发现,AI对VR的主要贡献体现在四个关键领域:创建智能虚拟角色、推动教育和培训、提供医疗辅助以及生成动态场景。这种跨学科的融合为教育、医疗保健、游戏和企业培训等领域带来了重大机遇。此外,研究还讨论了与计算成本、实时反馈、用户隐私和算法伦理相关的技术挑战。在数据处理瓶颈、隐私保护问题以及用户适应能力方面仍存在关键挑战。尽管AI提升了VR的智能性和互动性,但在跨模态集成、隐私保护、安全性和用户体验方面仍需取得突破。深度学习和强化学习的未来发展可能会为基于AI的VR在个性化适应和沉浸
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
时间:2025-11-08