以眼科学为例：探讨医学人工智能中模型再训练与维护的缺失科学及其挑战

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Digital Medicine》：Considering the missing science of retraining and maintenance in medical artificial intelligence, using ophthalmology as an exemplar

【字体：大中小】 时间：2026年02月26日 来源：npj Digital Medicine 15.1

编辑推荐：

　　在医学人工智能（AI）领域，模型再训练与维护的实践和系统科学严重缺失，阻碍了可信赖AI模型的持续发展和落地应用。本文以眼科学为例，重点揭示了制约医学AI模型再训练的三个常见挑战，并呼吁学术界超越概念验证和首次创新的局限，将模型再训练确立为学术贡献，以构建具有持久影响力的医学AI。

在人工智能（AI）浪潮席卷各行各业的今天，医疗健康领域同样迎来了变革性的机遇。然而，当我们惊叹于层出不穷的医学AI模型在测试集上取得优异性能时，一个常被忽视却至关重要的问题浮出水面：这些模型“毕业”后怎么办？在工业界和其他非医疗领域，模型的再训练（retraining）和持续维护已是标准实践，以确保其能够适应数据分布的变化和新的应用场景。然而，在关乎生命健康的医学AI领域，这一环节却远未得到系统性的探索和重视。问题的症结不仅在于许多模型难以在真实世界中保持其泛化能力（generalization），更在于学术界至今仍未建立起一套应对此挑战的“再训练科学”。这直接关系到我们能否构建出真正可信赖、能产生持久社会影响的AI工具，而非仅仅制造出昙花一现的“研究浪费”（research waste）。

为了深入剖析这一问题并提出解决路径，研究人员在《npj Digital Medicine》期刊上发表了一篇视角文章。他们以眼科学这一AI应用较为成熟的医学子领域作为范例，揭示了制约医学AI模型再训练的三大常见挑战，并强烈主张学术界必须进行范式转变，将模型再训练、维护和共享本身视为严肃的学术贡献。

研究者首先强调了医学AI模型面临的独特且严峻的泛化性挑战。不同于其他领域，医疗数据具有高度的异质性，可能源于不同种族人群、成像设备（如不同型号的眼底相机）、采集协议，甚至随时间推移而变化的临床实践标准。一个在特定数据集上表现卓越的模型，一旦部署到新的医院或人群，性能可能急剧下降。文章指出，学术界当前的主流模式仍集中于开发“世界首创”的概念验证（proof-of-concept）模型，但对于模型上线后如何保持其有效性和适应性的科学问题，投入的关注和资源远远不足。这种“重开发、轻维护”的倾向，导致大量研究成果难以转化为持久的临床价值。

为阐明上述挑战，文章引用了眼科学中的具体案例。例如，用于诊断糖尿病视网膜病变（diabetic retinopathy, DR）的AI模型，其训练数据往往来自特定的患者队列和成像设备。当将该模型应用于新的医疗中心时，哪怕诊断标准相同，成像设备的细微差异也可能导致模型性能的不稳定。如果没有一套系统的方法来监测性能衰减、收集新数据并启动再训练流程，模型的临床效用将大打折扣，甚至可能带来风险。

那么，究竟是哪些因素在阻碍医学AI模型的再训练实践呢？文章归纳了三个核心挑战：首先，数据可及性与标注成本挑战。医学数据的获取受严格隐私法规（如HIPAA, GDPR）限制，且高质量的医学标注极度依赖临床专家，成本高昂、耗时漫长，这使得持续为再训练收集和标注新数据变得异常困难。其次，计算资源与激励错配挑战。在学术界，计算资源（如GPU算力）和经费通常围绕新项目的立项和突破性发现进行分配。而模型的再训练、验证和部署维护是一项长期、重复性的工作，难以像一篇开创性论文那样为研究者带来同等的学术声誉和职业晋升激励，导致其缺乏持续投入的动力。最后，标准化与共享机制缺失挑战。目前缺乏关于如何记录模型版本、再训练触发条件、性能评估标准以及再训练后模型验证的广泛共识和最佳实践。同时，模型、代码乃至再训练数据的共享仍面临技术、法律和伦理上的多重壁垒。

基于以上分析，文章的核心论点呼之欲出：必须将医学AI模型的再训练确立为一门严谨的学术学科（scholarship）。这要求学术界、资助机构、期刊和行业共同推动一场文化变革。具体建议包括：资助机构应设立专门支持模型维护和再训练的项目；学术期刊应鼓励发表关于模型再训练方法、长期性能评估以及失败案例的论文，将其视为有价值的贡献；研究机构和高校应在学术评价体系中，认可在模型维护和共享方面的持续工作。

为了阐明模型再训练作为学术探索的价值，研究者在文中讨论了几个关键方法层面，这些虽非本文实验细节，但构成了开展此类研究的基础思路：一是利用真实世界临床数据流构建连续学习（continual learning）或主动学习（active learning）框架，以高效利用不断产生的新数据；二是设计领域自适应（domain adaptation）或元学习（meta-learning）算法，以提升模型对新数据分布的快速适应能力；三是建立包含多中心、多设备来源的前瞻性样本队列（prospective cohort），用于系统评估模型性能的衰变和再训练的效果，眼科学中基于眼底图像的疾病筛查项目常可提供此类队列；四是开发模型性能监控与再训练触发（retraining trigger）的自动化工作流，减少对人工干预的依赖。

文章通过多个小节层层递进地阐述了其观点。在“引言”部分，它明确了医学AI在模型全生命周期管理上的短板，并与工业界实践形成对比，引出了研究问题。通过“医学AI中的泛化性挑战”这一部分，结合眼科学案例，具体化地说明了为何再训练在医学领域尤为迫切。在“制约再训练的障碍”部分，系统性地剖析了数据、激励和标准化三大壁垒，使讨论从现象深入至结构性原因。最后，在“迈向再训练的科学”和“结论”部分，文章超越了问题描述，提出了明确的行动倡议和范式转变的呼吁，强调了将再训练视为学术贡献对于构建可持续、可信赖医学AI的深远意义。

综上所述，这篇视角文章的核心结论在于指出，医学人工智能的未来不仅取决于我们如何构建模型，更取决于我们如何持续地培育、更新和维护它们。模型再训练不应是事后才考虑的“运维问题”，而应是贯穿研究设计、模型开发与临床部署全周期的核心科学问题。只有学术界、产业界和监管机构共同重视并投资于这门“缺失的科学”，建立起涵盖数据、算法、评价标准和激励机制的完整生态系统，才能确保医学AI突破研究实验室的局限，真正成长为能够长期、安全、有效服务于患者和医生的可靠工具，从而兑现其变革医疗健康的巨大潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号