
-
生物通官微
陪你抓住生命科技
跳动的脉搏
NeuroLens:基于自然语言命令的多模态手术训练系统在神经内镜解剖定位中的应用研究
【字体: 大 中 小 】 时间:2025年06月26日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3
编辑推荐:
本研究针对手术训练中解剖结构识别困难的问题,开发了NeuroLens多模态系统,通过整合视频与文本/语音输入实现实时解剖定位。该系统采用Transformer架构的深度学习模型,在ETV数据集上达到100%分类准确率和67.10%的mIoU,SUS可用性评分71.5,为手术培训提供了交互式学习平台。
神经外科手术训练长期面临"看不会、练不足"的困境。传统依赖现场观摩的方式受限于手术室时间压力,而视频教学又缺乏交互性——学员只能被动观看,无法主动查询特定解剖结构的位置。更棘手的是,神经内镜手术涉及的脑室系统结构复杂,如脉络丛(Choroid plexus)和乳头体(Mammillary bodies)的辨识直接影响手术安全性,但现有教学资源难以实现"指哪学哪"的精准训练。
德国埃尔朗根-纽伦堡大学SPARC实验室的Nevin M. Matasyoh团队在《International Journal of Computer Assisted Radiology and Surgery》发表研究,开发出名为NeuroLens的革命性系统。这个系统就像给手术视频装上了"语音导航":学员只需说出"寻找脑基底动脉"或描述"脑室中葡萄串状的结构",系统就能实时框选出目标器官。这种将自然语言与视觉定位结合的设计,相当于为手术训练打造了一个"会对话的解剖图谱"。
技术方法的核心在于三模块协同:1)用户界面支持视频上传和语音/文本输入;2)语音处理单元采用Whisper-medium ASR和GPT-3进行指令优化;3)定位模型融合ResNet视觉特征与DistilBERT语言特征,通过Transformer实现跨模态学习。模型在包含1,718张ETV手术图像的标注数据集上训练,采用DIoU和smooth L1混合损失函数。
方法学创新
研究团队构建的混合架构颇具巧思:视觉分支先用CNN提取图像特征,再经Transformer编码器深化处理;语言分支则通过DistilBERT解析指令含义。两者在解码器层通过交叉注意力机制实现"图文对齐",最终输出带类别标签的边界框。这种设计使系统能理解从专业术语(如"Basilar artery")到形象描述(如"两个突出于中脑的球形结构")的多样化输入。
系统性能验证
定量测试显示惊人精度:在73张测试图像上实现100%的器官分类准确率,边界框定位精度79.69%,mIoU达67.10%。这意味着系统不仅能准确识别器官,还能在复杂手术视野中精确定位。如图6所示,对乳头体的定位几乎完全覆盖真实解剖位置:

临床可用性评估
5位神经外科从业者的测试结果呈现两极分化:SUS评分从47.5到92.5不等(平均71.5),反映系统对年轻医生更友好。参与者特别肯定其响应速度和组织逻辑性,但资深医师P4指出"需要更明确的引导说明"。值得注意的是,所有用户都认为语音输入功能显著提升了操作效率,这验证了多模态交互在医疗场景的特殊价值。
讨论与展望
该研究突破性地将NLP与计算机视觉结合,解决了手术培训中的"语义-视觉鸿沟"问题。相比传统视频教学,NeuroLens的实时交互特性使学习效率提升约30%(基于mIoU对比文献[2]数据)。但研究也存在明显局限:测试数据仅来自ETV手术,且样本量较小。作者坦承,下一步需扩展至垂体瘤等更多术式,并开发3D可视化功能以增强空间认知——正如参与者P3建议的"平面边界框难以反映深度关系"。
这项工作的深远意义在于:它开创了"可对话的手术教学"新模式。当AI能理解"描述性语言"而非严格术语时,医学教育的大门将向更广泛的学习者敞开。正如论文强调的,这种技术尤其适合解剖变异大的场景,其应用可能重塑微创外科的培训范式。未来若整合AR技术,或将实现"语音指导+3D标注"的沉浸式训练,这恰是精准医学教育发展的关键方向。
生物通微信公众号
知名企业招聘