
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多维度自适应残差密集注意力网络的跨模态患者情绪识别研究
【字体: 大 中 小 】 时间:2025年06月10日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
为解决多模态生理信号(EEG/视频/文本)在情绪识别中存在的数据冗余和特征提取不精准问题,研究人员开发了多维输入自适应残差密集网络(MARD-AM)结合改进阿达克斯优化算法(MAOA),通过融合脑电频谱图、GLoVe文本嵌入和3D视频帧特征,实现93%识别准确率,为智能医疗中的情绪监测提供新范式。
在医疗健康领域,准确捕捉患者的真实情绪状态是改善诊疗体验的关键。然而,传统基于单一模态(如面部表情或语音)的情绪识别方法面临巨大挑战——人们可能刻意隐藏情绪,环境光线会影响面部识别精度,背景噪音则会干扰语音分析。更棘手的是,现有模型难以处理多模态数据间的复杂关联,冗余信息导致训练效率低下。这一困境催生了跨模态情绪识别技术的革新需求。
某研究团队在《Biomedical Signal Processing and Control》发表的研究中,构建了名为"多维输入自适应残差密集注意力网络"(Multi-dimensional input-based Adaptive Residual DenseNet with Attention Mechanism, MARD-AM)的创新框架。该模型通过三重技术突破:首先采用频谱图转换将EEG信号转化为2D时频特征,配合GLoVe嵌入处理文本数据,保留3D视频帧的空间时序信息;其次设计跨维度注意力机制捕捉多模态数据的关联特征;最后引入改进阿达克斯优化算法(Modified Addax Optimization Algorithm, MAOA)自动调参,使模型在测试中达到93%的准确率和87%的马修斯相关系数(MCC),显著优于传统方法。
关键技术包括:1) 多模态数据并行处理(EEG频谱转换、文本GLoVe嵌入、3D卷积处理视频);2) 残差密集网络结合跨维度注意力机制;3) MAOA优化算法进行超参数自动调整。实验采用包含脑电信号、临床对话文本和就诊视频的多元数据集。
【Novel contribution of the work】
研究提出首个整合EEG、视觉与文本特征的端到端情绪识别框架,其创新性体现在:1) 通过MARD-AM网络同步处理异质数据维度(1D文本/2D频谱/3D视频);2) 采用注意力机制强化关键特征提取;3) 引入MAOA解决传统优化算法收敛慢的问题。
【Description of the designed system】
系统工作流程显示:预处理阶段对EEG信号去噪后生成频谱图,文本数据经词干提取和停用词过滤后转换为300维GLoVe向量,视频帧通过3D卷积提取时空特征。MARD-AM的残差跳跃连接有效缓解了深层网络梯度消失问题。
【Modified addax optimization Algorithm】
MAOA通过模拟阿达克斯羚羊的觅食行为改进搜索策略:1) 在勘探阶段采用正弦函数增强全局搜索;2) 开发阶段引入动态权重加速收敛。实验证明其参数优化速度比传统算法快1.8倍。
【Discussion】
与DMO-MARD-AM等基线模型对比,MAOA-MARD-AM在DEAP和MAHNOB-HCI数据集上表现出显著优势:准确率提升12%,F1-score提高9%。注意力机制可视化证实模型能准确聚焦于EEG信号的γ波段和面部微表情区域。
【Conclusion】
该研究开创性地实现了三模态情绪特征的协同分析,其临床价值体现在:1) 克服单一模态的感知局限;2) 通过MAOA实现模型自优化;3) 为抑郁症等精神疾病的早期筛查提供客观指标。未来可通过增加实时数据训练进一步提升泛化能力。
这项突破不仅推动了Affective Computing(情感计算)领域的发展,更启示了多模态融合在数字医疗中的巨大潜力——当机器能像经验丰富的医生那样"察言观色",精准情绪识别将成为智能诊疗系统的新标配。
生物通微信公众号
知名企业招聘