
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于视觉Transformer与CNN多流特征融合的癫痫发作精准检测方法研究
【字体: 大 中 小 】 时间:2025年08月08日 来源:Journal of Translational Medicine 7.5
编辑推荐:
本研究针对癫痫发作自动检测中局部特征与全局时序依赖性挖掘不足的问题,提出了一种融合卷积神经网络(CNN)与视觉Transformer(ViT)的多流特征融合模型CMFViT。通过TQWT时频变换将EEG信号转换为图像,利用CNN模块捕获局部特征,ViT模块建模全局时序关联,最终在CHB-MIT数据集上实现98.85%的准确率,为癫痫实时监测系统开发奠定基础。
癫痫发作的精准检测一直是神经科学领域的重大挑战。作为慢性神经系统疾病,癫痫患者常伴随反复发作、认知障碍等症状,严重影响生活质量。目前临床主要依赖脑电图(EEG)监测,但EEG信号的非线性、非平稳特性以及患者间的高度变异性,使得传统人工分析方法效率低下且易漏诊。尽管机器学习方法如支持向量机(SVM)和随机森林已应用于癫痫检测,但这些方法依赖复杂特征工程,泛化能力有限。深度学习技术虽能自动提取特征,但现有模型往往难以兼顾EEG信号的局部细节与长程时序依赖关系。
针对这一难题,国内研究团队创新性地提出CMFViT模型,通过多流特征融合策略(MSFF)整合CNN的局部特征提取优势与ViT的全局建模能力。研究采用可调Q因子小波变换(TQWT)将原始EEG信号转换为时频图像,设置Q=2.2、冗余度r=3和分解级数J=8以优化时频分辨率。CNN模块采用3×3卷积核分层提取局部特征,ViT模块则通过自注意力机制(MHSA)捕捉长程依赖,最终在CHB-MIT单受试者实验中达到98.85%准确率,交叉受试者实验中保持88.87%的稳定性能。
关键技术方法:
时频转换:采用TQWT将EEG信号(Q=2.2)转换为时频图像
双分支架构:CNN模块(3层卷积)与ViT模块(8头注意力)并行处理
特征融合:通过MSFF策略整合128维局部与全局特征
数据平衡:采用25%重叠采样和30%随机丢弃解决类别不平衡
评估方案:10折交叉验证,早期停止策略(耐心值=10轮)
研究结果:
模型性能验证:在CHB-MIT单受试者测试中,平均敏感度达97.98%,特异性98.29%,AUC值98.28%。特别在受试者chb2、19、23和24实现100%准确率。
跨数据集泛化:在Kaggle数据集(71健康人+50患者)的交叉受试者测试中,保持86.76%敏感度和87.37%特异性,证明模型对个体差异的鲁棒性。
模块贡献分析:消融实验显示单独CNN和ViT模块准确率分别为88.42%和92.87%,融合后提升5.98%,证实多流融合的必要性。
参数优化验证:Q因子实验表明Q=2.2时性能最优,注意力头数设为8时达到计算效率与精度的最佳平衡。
结论与意义:
该研究通过创新性的多模态架构设计,首次实现了CNN局部特征与ViT全局建模在癫痫检测中的协同优化。MSFF策略有效保留了时频图像的局部细节与长程上下文信息,较传统串联融合方法提升2.13%准确率。模型在256Hz与128Hz采样率下性能波动小于1%,展现出色的硬件适应性。
临床层面,CMFViT为便携式EEG设备的实时监测提供了可靠算法基础,其端到端架构避免了传统方法繁琐的特征工程步骤。方法论上,研究为多模态生物信号处理提供了新范式,未来可扩展至睡眠分期、脑机接口等领域。作者建议后续研究可探索动态通道加权机制,并通过对ViT注意力图的可视化分析,进一步揭示癫痫发作的神经机制特征。该成果发表于《Journal of Translational Medicine》,为癫痫精准医疗提供了重要的技术支撑。
生物通微信公众号
知名企业招聘