面向生物医学时间序列的小样本学习研究综述:挑战、方法与临床应用
《IEEE Reviews in Biomedical Engineering》:A Survey of Few-Shot Learning for Biomedical Time Series
【字体:
大
中
小
】
时间:2025年11月28日
来源:IEEE Reviews in Biomedical Engineering 12
编辑推荐:
本文针对生物医学时间序列标注数据稀缺的难题,系统综述了小样本学习(Few-Shot Learning)在穿戴式传感与电子健康记录(EHR)等场景中的应用。作者从数据增强(DA)、度量学习(如原型网络Prototypical Networks)、模型架构(如对抗网络Adversarial Networks)、优化策略(如元学习MAML)及混合方法五大维度梳理技术体系,通过55项实证研究验证其在癫痫检测、心律失常分类、睡眠分期等任务中显著提升模型泛化能力。该研究为突破临床数据壁垒、推动个性化医疗提供了重要方法论支持。
随着穿戴式传感器技术的飞速发展和医疗记录的数字化进程,生物医学时间序列数据正以前所未有的规模渗透到健康管理的各个环节。这类数据驱动的模型在辅助临床诊断、改善患者护理方面展现出巨大潜力——它们能够增强长期监测能力,促进早期疾病发现与干预,甚至推动个性化医疗服务的实施。然而,现实却充满挑战:获取大量标注数据来训练数据饥渴的深度学习模型面临多重障碍,例如罕见疾病的长尾分布、标注成本高昂、隐私安全问题、数据共享法规以及伦理考量。面对标注数据稀缺的困境,一种新兴的解决思路是赋予人工智能模型类似人类的学习能力,使其能够利用过去经验,仅通过少量样本就能学会新任务,这种范式被称为小样本学习(Few-Shot Learning)。
发表于《IEEE Reviews in Biomedical Engineering》的这篇综述论文《A Survey of Few-Shot Learning for Biomedical Time Series》首次系统梳理了小样本学习在生物医学时间序列分析领域的应用全景。文章聚焦四大核心问题:小样本学习问题如何定义?其方法体系如何划分?在生物医学时间序列中有哪些具体应用及临床价值?未来面临哪些挑战与发展方向?
为开展此项研究,作者团队检索了ACM、PubMed和Google Scholar等学术数据库,通过精心设计的三段式检索策略(涵盖"小样本学习"、"生物医学"和"时间序列"关键词),最终从580篇候选文献中筛选出55项高质量研究进行深入分析。研究重点分析了脑电(EEG)、心电(ECG)、肌电(EMG)、光电体积描记术(PPG)等多种生物医学时间序列模态,涵盖了癫痫检测、心律失常分类、睡眠分期、情绪识别等典型临床应用场景。
- 1.数据增强方法通过生成对抗网络(GAN)或传统数据增广技术扩充支持集;
- 2.度量学习方法包括连体网络(Siamese Networks)、匹配网络(Matching Networks)和原型网络(Prototypical Networks),通过学习嵌入空间中的相似性度量;
- 3.模型优化方法如模型无关元学习(MAML)和迁移学习(Transfer Learning),侧重改进训练策略;
- 4.
- 5.混合方法融合多种技术优势,如结合元学习与度量学习。
与传统机器学习将数据集划分为训练集、验证集和测试集不同,小样本学习受限于可用标注数据量,无法进行此类划分。文章明确定义了N-way-K-shot问题框架:支持集S包含N个类别每类K个样本,查询集Q包含待预测样本。目标是利用支持集信息预测查询集标签。该设置可扩展至回归和预测任务,其中真实值为连续目标或序列。
数据增强方法直接应对数据短缺问题,通过生成合成样本增加支持集规模和多样性。生成对抗网络(GAN)及其变体如Wasserstein GAN(WGAN)和条件GAN(CGAN)是主要技术手段。例如,You等人提出的SleepGAN通过WGAN和关系记忆生成器合成EEG睡眠时段,将睡眠分期准确率从77.5%提升至81.1%。传统数据增广技术如噪声注入、信号变换等也被证明对传统机器学习模型有效,但对深度学习模型支撑有限。这类方法的主要风险在于可能过度拟合支持集分布,且依赖良好的领域知识确保增广数据有效性。
度量学习方法聚焦于学习嵌入空间中的相似性度量,其中连体网络(Siamese Networks)通过共享权重的嵌入网络和相似性函数计算样本对距离;匹配网络(Matching Networks)将查询样本与整个支持集进行比较;原型网络(Prototypical Networks)则计算查询样本与各类别原型间的距离。研究表明,基于1D CNN的嵌入网络搭配欧氏距离或余弦相似度函数是生物医学时间序列中最常见的组合。此类方法通过对比学习机制增强模型对类间差异和类内一致性的捕捉能力,显著提升跨主体泛化性能。
模型架构方法通过设计专用网络提升小样本泛化能力。对抗域适应框架通过训练判别器区分源域与目标域特征,促使特征提取器学习主体不变特征;支持向量机(SVM)则凭借低计算开销优势,在穿戴设备上实现高效的在线调优。优化策略方面,模型无关元学习(MAML)通过内外循环优化机制寻找易于快速适应的模型参数初始化,在个性化医疗场景中展现独特价值。迁移学习通过预训练-微调范式,在相似任务间实现知识迁移。
混合方法通过整合不同技术路线发挥协同效应。例如,Li等人将MAML与原型网络结合,利用元学习得到的类别中心指导未标注数据的伪标注过程;Aldahr等人则融合GAN数据增强、图论特征提取和连体网络,共同应对数据稀缺和主体间变异难题。这些混合方案在多个生物医学数据集上超越单一方法基线,但同时也增加了系统复杂性和可解释性挑战。
研究指出该领域面临两大核心挑战:缺乏统一基准数据集和评估标准,以及预训练数据集选择准则不明确。针对未来发展方向,文章提出四个前沿领域:基础模型(Foundation Models)如大型EEG模型LaBraM和通用时序预测模型MOIRAI,通过大规模预训练获得零样本泛化能力;多模态学习融合时序信号与文本等异构数据;神经自适应过程(Neural Adaptive Processes)实现低计算开销的持续学习;以及将小样本学习拓展至预测、异常检测和聚类等更广泛任务场景。
这项系统综述填补了生物医学时间序列小样本学习领域的知识空白,为研究者提供了清晰的技术路线图和方法选择指南。通过全面梳理数据增强、度量学习、模型架构、优化策略和混合方法五大技术体系,文章不仅总结了现有技术的临床适用性和局限性,还指明了基础模型、多模态学习等未来发展方向。这些研究成果对推动个性化医疗、解决临床数据稀缺问题具有重要理论与实践意义,为下一代智能医疗系统的发展奠定了方法论基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号