当前位置:首页 > 今日动态 > 科研动态/国外
  • 在Transformer网络中学习预测感知的先验,以实现精确的时空视频地面定位

    摘要时空视频定位(STVG)旨在在未经修剪的视频中精确定位与给定语言描述相对应的时空对象。许多现有方法将空间定位和时间定位视为独立的任务,忽略了两者之间的紧密关联,而这种关联对于准确地将空间区域(如物体)与其随时间的变化对齐至关重要。因此,为了增强时空关联性,我们引入了一种新的基于先验的Transformer网络(PDTNet),该网络利用预测的时间边界作为先验来指导物体边界框的定位,从而提高时空定位的准确性。首先,PDTNet使用一种称为“参考查询”的时间先验,以提高语言相关内容与语言无关内容之间的区分度,从而改善时间边界的定位精度。此外,预测时间边界内的上下文作为另一种先验知识,用于调节空

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • HIN:用于图像字幕的层次交互网络

    摘要图像字幕任务的目的是理解图像的内容并生成相应的描述性文本。传统的图像字幕方法通常通过从图像中提取不同类型的视觉特征并进行特征交互来生成描述性文本。然而,这些方法往往无法充分利用不同类型视觉特征之间的相互作用,导致特征整合效果不佳。为了解决这一局限性,我们提出了一种新颖的层次交互网络(HIN),该网络旨在持续提取和交互不同类型的视觉特征,以实现更有效的多级特征交互。我们的HIN包含三个关键模块:首先,我们设计了跨类型特征对齐(CTFA)编码器,它通过三个全局特征对齐不同类型的视觉特征,以便后续模块能够有效地进行层次交互;其次,层次交互(HI)模块利用编码器输出的不同类型的多级特征进行特征交互

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • 适用于物联网智能医疗系统的软件化入侵检测系统

    摘要基于物联网的智能医疗系统(IoT-SHS)是一个由智能可穿戴设备、软件应用程序、医疗系统和服务组成的网络基础设施,它通过开放的无线通道持续监控并传输与患者相关的数据。由于资源限制以及低成本医疗设备的异构性,传统的安全机制无法有效检测物联网医疗系统(IoT-SHS)环境中的攻击。深度学习(DL)在入侵检测系统(IDS)中的应用以及网络的软件化技术,有望为物联网医疗系统提供安全的网络服务。基于上述讨论,我们提出了一种智能的软件化IDS,用于保护物联网医疗系统生态系统的关键基础设施。具体而言,这种基于深度学习的IDS采用了混合式的CUDA长短期记忆深度神经网络(cuLSTM-DNN)算法,帮助网

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • 基于物联网和深度学习的智能医疗框架,用于甲状腺癌检测

    摘要随着医疗物联网(Internet of Medical Things)及相关机器学习、深度学习和人工智能技术的发展,医疗保健领域迎来了诸多可能性。这些技术具有广泛的应用前景:当常规医疗设备和传感器连接到互联网后,可以收集重要数据;深度学习和人工智能算法利用这些数据来分析症状和模式,从而实现远程医疗。全球有大量人群受到甲状腺疾病的影响。传统方法基于超声的甲状腺结节检测方法对专业人员的依赖性较高。因此,需要寻找替代方案来解决这一问题。为了便于早期发现甲状腺疾病,本研究旨在提出一个基于物联网(IoT)的集成学习框架。在所提出的集成模型中,使用了三个预训练模型(DeiT、Mixer-MLP和Swi

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • MAFF-Net:一种用于合成音频检测的多级声学特征融合网络

    摘要语音欺骗攻击已成为当今安全领域面临的重大挑战。尽管在合成语音检测技术方面已经取得了一些进展,但现有的检测方法仍然难以有效识别未知的攻击策略。为了解决这些挑战,我们提出了一种新颖的多级声学特征融合框架MAFF-Net,该框架包括三个主要组成部分:多层声学特征提取、跨注意力特征融合和图聚合检测模块。多层声学特征提取模块包含两个互补的过程:多谱图特征提取,用于捕捉音频信号的底层物理特性;以及Wav2vec2特征提取,专注于高层语音表示。这些多层特征通过跨注意力机制进行整合,从而增强了模型的区分能力。为了更好地评估所提出模型的泛化能力,我们引入了中文高级合成语音数据集(CASSD),该数据集包含了

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • 通过虚拟点云实现的多空间表示融合增强型单目深度估计

    摘要单目深度估计(MDE)是计算机视觉中的一个基本问题,在各种下游任务中具有广泛的应用。虽然最近的研究致力于设计越来越复杂和强大的深度学习方法来直接回归深度图,我们提出了一种新的方法,通过引入虚拟点云(VPC)作为中间表示,为MDE任务提供近似的几何先验。在本文中,我们设计了一个多尺度多空间表示融合增强的单目深度估计框架,以应对MDE的挑战。具体来说,为了解决尺度模糊问题,我们设计了一个VPC特征提取模块来学习深度先验的多尺度3D几何信息。然后,我们通过结合2D空间中的纹理特征和3D空间中的几何特征,明确引入了全局深度预测的几何约束。 为了减少物体边界处的误差,我们引入了一个基于VPC质量的置

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • 通过压缩心电图测量数据检测心房颤动,用于无线身体传感器网络

    摘要近年来,可穿戴设备在公众中的使用越来越普遍,其中心房颤动(AF)检测是这些设备中的一项热门应用。通常,AF检测是在云端进行的,而本文介绍了一种设备内置的AF检测方法。技术上,首先使用压缩感知(CS)技术来采集心电图(ECG)数据。然后,提出直接在压缩后的CS测量结果上进行QRS波群检测,而不是在强大的云端服务器上对重建后的信号进行处理。基于提取的QRS信息,通过定量分析(RR、dRR)图来确定是否存在AF。为了验证性能,本文使用了来自医疗级数据库(MIT-BIH afdb)和可穿戴ECG设备(Physionet Challenge 2017)的ECG样本。实验结果充分表明,我们的设备内置A

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • 基于相关性引导的掩码自编码器与点云上的多模态对比交互

    摘要自我监督学习在3D点云理解方面展现出了显著的效果。现有的掩码自编码器或对比学习范式能够从未标记的数据中获取稳健的特征表示。具体而言,掩码自编码器提取局部块的特征,并将其直接映射到潜在的全局向量上,但存在语义提取不足和潜在交互作用较弱的问题。对比学习范式通过受限约束来捕捉全局对应关系,但由于缺乏局部细节建模而受到限制。这促使我们整合这两种有效组件的协同优势,并进一步扩展它们以适应多模态依赖性。在本文中,我们提出了一种统一的、基于相关性引导的掩码自编码器与多模态对比交互(CorMAC)学习方法,用于自我监督的点云分析。首先,我们设计了球形自适应嵌入框架来学习局部潜在语义,并改进了掩码机制以实现

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • 利用多任务混合注意力网络进行音视频事件定位,以支持智能医疗系统

    摘要人类的感知在很大程度上依赖于两种主要感官:视觉和听觉,这两种感官紧密相连且能够相互补充。因此,出现了多种多模态学习任务,其中音频-视觉事件定位(AVEL)是一个突出的例子。AVEL是多模态学习领域中的一项热门任务,其主要目标是识别每个视频片段中的事件并预测这些事件的类别。这项任务在医疗监控和监控等领域具有重要的应用价值。总体而言,与单模态学习相比,音频-视觉协同学习提供了更全面的信息视图,因为它能够更全面地感知环境信息,这与实际应用需求更为契合。然而,音频和视觉数据本身的异质性可能会引入与事件语义不一致相关的挑战,从而导致预测错误。为了应对这些挑战,我们提出了一种多任务混合注意力网络(MH

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • 如何理解命名实体:利用常识进行新闻标题标注

    摘要新闻字幕生成的目标是利用图像及其对应的新闻文章内容作为输入来描述该图像。这一过程在很大程度上依赖于一系列被检测到的命名实体,包括现实世界中的人物、组织和地点。本文利用常识知识来辅助新闻字幕的生成。所谓“理解”,是指将新闻内容与现实世界中的常识进行关联,这有助于系统:1)区分语义上相似的命名实体;2)使用训练语料库之外的词汇来描述这些命名实体。我们的方法包含三个模块:(a) 过滤模块 从两个方面阐明关于命名实体的常识:它指的是什么? 和 它与什么相关?,并将这些常识分为 解释性知识 和 相关知识。(b) 区分模块 结合 解释性知识 以及 节点度、依存关系 和 区分度 三个方面的信息,来区分语

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • 基于无人机的医疗物联网中的分布式计算卸载与功耗控制

    摘要医疗物联网(IoMT)的发展催生了各种健康和情感护理服务,例如健康监测。为了满足IoMT服务日益增长的计算需求,移动边缘计算(MEC)成为智能健康领域不可或缺的技术。得益于其部署的成本效益,配备了MEC服务器的无人驾驶飞行器(UAV)在非正交多址(NOMA)技术下成为在医疗设备(MDs)附近提供智能健康服务的有前景的解决方案。然而,随着医疗设备数量的增加以及UAV通信资源的有限性,传输延迟显著上升。此外,由于UAV的通信范围有限,地理分布广泛的医疗设备导致UAV的工作负载不平衡,从而加剧了服务响应延迟。为此,本文提出了一种基于多智能体的UAV辅助分布式计算卸载和功率控制方法,称为DOPMA

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • CCM-Net:一种对比分析与一致性结合的多任务网络,用于OCTA图像的伪影分割与质量分类

    摘要在光学相干断层扫描血管成像(OCTA)图像中,伪影非常普遍,这可能会干扰医生的诊断并极大地限制其实用性。因此,在使用这些图像进行诊断时,对伪影进行分割并评估其质量是很有必要的。在本文中,我们提出了一个端到端的网络模型(命名为CCM-Net:对比与一致性多任务网络),用于同时处理OCTA图像的伪影分割和质量分类问题。首先,我们设计了多个任务特定的注意力模块(Task-Specific Attention Blocks,简称TAB),以整合不同卷积神经网络(CNN)层中的深度特征,从而实现对伪影的分割和对输入OCTA图像质量的分类。通过这种方式,可以自动学习不同深度特征的权重,并且这两个任务的

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • R-HMF:一种基于关系增强的分层多模态框架,用于小样本知识图谱补全

    摘要知识图谱补全(KGC)旨在推断缺失的事实三元组,在构建完整的知识图谱以提升下游应用方面发挥了重要作用。然而,大多数KGC技术需要大量的标注训练样本,而当仅有少量三元组可用时,性能会显著下降。主要挑战在于这些少量标注三元组提供的信息不足。最近,一些研究利用多模态实体上下文来丰富实体表示,但其性能仍受到以下限制:1)忽视了模态异质性的挑战;2)引入了与相应关系无关的冗余多模态噪声;3)在仅有少量标注样本的情况下难以学习关系表示。为了解决这些问题,我们提出了一种新颖的基于关系增强的分层多模态框架(R-HMF),用于少量样本的知识图谱补全。具体而言,为考虑模态异质性,我们首先进行针对每种模态的少量

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • 频率恢复与模态强化在抗腐败多模态情感分析中的应用

    摘要在多模态情感分析(MSA)中,以往的方法主要集中在设计复杂的融合策略以及跨异构模态进行表示学习上,旨在利用多模态信号来检测人类情感。然而,这些方法未能解决视频中模态细节被破坏这一长期存在的问题,这可能是由于情感相关语义的过度丢失导致详细信息退化所造成的。在这项工作中,我们提出了一种分层频率恢复与自适应模态增强(HFR-AME)方法,以提高MSA抵抗数据损坏的能力。HFR-AME逐步恢复每种模态中模糊的细节信息,同时增强模态表示的区分能力。具体而言,为了重构不同的频带特征,我们为HFR模块配备了一个名为频率多模态UNet(FM-UNet)的关键组件,以便利用互补的模态特征作为条件。这种从低频

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • ShapeMoiré:一种基于通道信息的形状引导网络,用于图像的去莫尔效应处理

    摘要在拍摄光电显示器时,由于显示器像素网格与相机传感器阵列之间的模拟信号干扰,常常会产生不必要的摩尔纹图案。本研究指出了现有图像去摩尔纹方法大多忽略的两个问题:1)摩尔纹图案在不同通道(RGB)之间存在差异;2)会不断观察到重复的图案。然而,传统的卷积神经网络(CNN)层无法解决这些问题。为此,本文提出了一种我们最近提出的“Shape”概念。该概念最初用于从碎片化区域中提取一致的特征,尤其是在RGB-D图像中存在相同或相似对象的情况下。有趣的是,我们发现“Shape”信息能够有效捕捉到伪影图像中的摩尔纹图案。基于这一发现,我们提出了一种新的去摩尔纹方法——ShapeMoiré。该方法不仅在块级

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08

  • 媒体融合元宇宙中的人际沟通与互联互通

    摘要元宇宙旨在提供与现实世界相连的沉浸式虚拟世界。为了实现全球用户之间的实时人际交流,元宇宙对网络性能提出了很高的要求,包括低延迟、高带宽和快速的网络传输速度。本文提出了一种新颖的媒体融合元宇宙网络(MCMN)框架来应对这些挑战。具体而言,META控制器作为MCMN的逻辑集中控制平面,负责整个网络的协调管理以及元宇宙用户之间的端到端路径计算。我们开发了一种基于无模型深度强化学习的元宇宙流量优化算法,该算法能够在满足服务质量(QoS)要求的同时学习流量路由方式。网络切片引擎利用人工智能和机器学习技术,根据元宇宙流量的动态需求创建隔离的、定制化的虚拟网络。该引擎通过使用来自META控制器的网络遥测

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • LSDN 通过提升元宇宙通信能力,实现了在较低带宽下生成高分辨率视觉效果的目标

    摘要在元宇宙终端设备上部署超分辨率模型可以在不增加网络带宽的情况下提升视觉效果。然而,由于大多数当前的超分辨率模型体积庞大且计算功耗较高,在硬件资源有限的元宇宙终端设备上部署这些模型存在挑战。在本文中,我们提出了一种轻量级的分离与蒸馏网络(LSDN),旨在通过优化网络结构来降低模型复杂度。具体而言,我们首先引入了可分离卷积(BSConv)来减少模型复杂度,并结合BSConv与信息蒸馏机制构建了通道分离蒸馏模块(CSDB)。随后,我们开发了增强型空间注意力模块(ESA)和融合MBConv(FMBConv)以挖掘潜在信息。此外,我们使用三个CSDB、一个ESA和一个FMBConv来构建残差注意力单

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • DeGONet:一种去中心化的、以群体为导向的互连网络,专为支持物联网的元宇宙而设计

    摘要作为一项跨越多个行业的变革性技术,元宇宙的出现将现实世界与虚拟世界连接了起来。在这个过程中,物联网(IoT)在实现有效的信息物理交互方面发挥了关键作用。然而,其普遍采用的集中式互连架构在互操作性和数据隐私方面面临挑战,从而限制了其在人与人之间交互中的全部潜力。为了解决这些挑战,本文提出了一种新型的去中心化、面向群体的物联网数据互连网络,简称DeGONet。我们提出了一种基于群体的信任管理模型,以促进用户在数据共享实践中的适应性。此外,我们还提出了一种基于智能合约和预言机的新交互范式。鉴于现有区块链结构在大规模数据集成方面的潜在延迟和可扩展性限制,我们设计了一种名为“直接无环图树”(DAG-

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • 在数字孪生时代,网络物理系统呈现出新的层次结构

    摘要信息物理系统(CPS)是一种新型系统,旨在集成感知、通信和计算组件,这些组件与物理对象交互,使系统能够感知、监控、控制并响应其运行环境中的变化。随着物联网(IoT)、边缘计算/云计算和人工智能(AI)的发展,另一种新范式——数字孪生(DT)应运而生,成为实现CPS元宇宙的关键技术。数字孪生提供了物理世界的虚拟副本,支持对安全关键系统(如CPS)进行实时监控、控制和分析。尽管许多与CPS相关的问题可以通过数字孪生的概念来解决,但明确界定数字孪生的集成方式至关重要,以便最大限度地发挥其优势。本文提出了一种新的数据层结构,用于支持CPS的各种功能。这种数据层类似于现代操作系统和计算机网络的抽象设

    来源:ACM Transactions on Internet Technology

    时间:2025-11-08

  • 通过模态-相机平衡标签细化实现的无监督可见光-红外人物重新识别(Unsupervised Visible-Infrared Person ReID)

    摘要无监督的可见光-红外人体重新识别(USL-VI-ReID)致力于开发一种无需标签的跨模态检索模型,以减少对跨模态人工注释的依赖。近年来,多种方法致力于减少跨模态差异。然而,这些方法忽略了USL-VI-ReID也是一个在探索层次化领域中的细粒度信息的同时解决差异的任务。在本文中,我们提出了一个层次化的模态-相机平衡标签细化(MCBL)框架,以平衡每个相机模态的贡献。同时,我们在每个训练阶段探索细粒度特征并细化噪声标签。具体来说,我们的MCBL将模态-相机平衡标签挖掘(MBLM)、不可靠伪标签重新对齐(UPR)和混合模态-相机对比学习(HMCCL)自然地结合到一个统一框架中,通过细化噪声标签来

    来源:ACM Transactions on Multimedia Computing, Communications, and Applications

    时间:2025-11-08


页次:2731/9735  共194698篇文章  
分页:[<<][2731][2732][2733][2734][2735][2736][2737][2738][2739][2740][>>][首页][尾页]

高级人才招聘专区
最新招聘信息:

知名企业招聘:

    • 国外动态
    • 国内进展
    • 医药/产业
    • 生态环保
    • 科普/健康