基于大语言模型增强的神经常微分方程网络在视频眼震图分类中的应用研究

【字体: 时间:2025年07月11日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  研究人员针对良性阵发性位置性眩晕(BPPV)诊断中视频眼震图(VNG)分类精度不足的问题,创新性地提出LLM-GAODE框架。该研究整合眼动追踪技术、Gram-based注意力机制和神经常微分方程网络,通过大语言模型(LLM)辅助低置信度预测,在临床数据集上显著超越现有基准。这项研究为BPPV诊断提供了自动化、高精度的新范式,代码已开源。

  

良性阵发性位置性眩晕(BPPV)是一种常见的眩晕亚型,临床诊断高度依赖视频眼震图(VNG)中眼球震颤模式的人工判读。然而现有自动化方法存在三大瓶颈:视频分析框架难以捕捉特异性症状、缺乏医学先验知识整合、对细微眼动变化不敏感。这些问题导致现有深度学习模型临床适用性受限,亟需创新解决方案。

针对这些挑战,研究人员开发了LLM-GAODE框架。该研究首次将VNG分类问题转化为时间序列轨迹分类任务,通过瞳孔中心坐标提取实现数据降维。核心创新在于:1) 采用Gram矩阵转换保留平移等变特性;2) 设计增强神经ODE网络捕捉连续轨迹动态;3) 引入Lyapunov损失优化决策边界;4) 当神经网络置信度低于阈值时,调用Llama2-70b模型进行推理校正。

关键技术包括:1) 基于轮廓检测和霍夫圆变换的瞳孔坐标提取;2) 极坐标映射的Gram矩阵转换算法;3) 融合核注意力机制的Augmented Neural ODE网络;4) 精心设计的Discriminate_prompt工程。实验使用合作大学医院提供的843例临床VNG数据集,涵盖15种常见眼震类型。

【VNG数据预处理】
通过VertiGoggles R ZT-VNG-II采集原始视频(640×480分辨率,60fps),提取时间序列瞳孔坐标并消除异常帧,构建包含水平、垂直维度的运动轨迹数据集。

【Gram-AODE改进眼动轨迹分类】
将时间序列转换为Gram特征图后,采用包含Lyapunov约束的增强ODE网络处理。结果显示:在15分类任务中Top-1准确率达84.81%,较传统3D-ResNet101提升55.57个百分点。核注意力机制使模型参数量减少30%的同时,推理速度提升10.6%。

【LLM优化复杂决策边界】
当主模型预测置信度τ<0.7时,Llama2-70b通过分析轨迹特征和概率分布进行二次决策。该策略使边界样本分类准确率提升12.3%,在UCR基准测试中,LLM-GAODE在25个数据集的18个上达到最优。

【消融实验验证】
关键发现包括:1) 双层的后置核注意力表现最佳(84.81% vs 单层82.14%);2) L2范数核函数优于Tanh等方案;3) Runge-Kutta求解器精度最高但耗时较长;4) 70B参数模型展现显著涌现能力,7B模型几乎无改进。

这项研究的意义在于:1) 首次实现医学先验知识与神经ODE的深度融合;2) 创建了轨迹分类的新基准;3) 验证了LLM在专业领域的决策增强作用。临床转化方面,框架已部署至合作医院耳鼻喉科,辅助医生识别易漏诊的复杂眼震模式。未来工作将聚焦于:1) 多模态数据融合;2) 不确定性量化;3) 轻量化部署方案。论文发表于《Knowledge-Based Systems》,代码开源在GitHub平台。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号