本刊推荐:为明确衰老研究领域的核心挑战,由Angelo Talay、Joao Pedro de Magalhaes等国际学者联合开展了一项系统性研究。通过社区征集与自然语言处理(NLP)技术,团队从PubMed数据库中筛选出100个关键开放性问题,涵盖衰老分子机制、干预策略及生物标志物(如 epigenetic clocks)等方向。研究成果以交互式数据库(www.longevityknowledge.app)形式发布,为生物老年学领域提供了优先研究路线图,对推动健康寿命(healthspan)延长研究具有纲领性意义。
随着全球人口老龄化加剧,揭示衰老本质并开发干预策略已成为生命科学领域的核心挑战。尽管近年来衰老科学研究取得显著进展——从饮食限制(dietary restriction)延长寿命的发现到胰岛素/IGF-1信号通路等保守机制的解析,再到表观遗传时钟(epigenetic clocks)等生物标志物的开发——但领域内仍存在大量根本性争议。例如,衰老的驱动机制是细胞自主性还是系统性过程主导?不同物种的衰老路径是否保守?如何将临床前模型的干预成果转化为人类应用?这些分歧不仅阻碍领域发展,更凸显了系统性梳理关键问题的紧迫性。为此,发表于《GeroScience》的这项研究联合来自英国伯明翰大学、以色列魏茨曼科学研究所、马克斯·普朗克衰老生物学研究所等24个机构的国际团队,通过社区参与和自然语言处理(Natural Language Processing, NLP)技术,首次构建了衰老科学领域的100个开放问题路线图。研究团队通过线上平台征集和线下研讨会两种方式,共收集290个初始问题,经去重和筛选后保留204个问题用于深度分析。为评估这些问题在现有文献中的覆盖度,团队对PubMed中“Ageing”主题下的200,228篇论文摘要进行自然语言处理分析,采用PubMedBERT和MedCPT模型计算每个问题与文献的语义相似度,并利用自然语言推理(Natural Language Inference, NLI)技术筛选出高度相关的研究论文。最终,通过共识聚类(consensus clustering)将问题归纳为11个主题,并由领域专家Joao Pedro de Magalhaes遴选出兼具代表性和前瞻性的100个问题。关键方法概述研究整合社区提交(160条)与研讨会生成(130条)的开放问题,经预处理后保留204条。利用PubMedBERT模型将问题与200,228篇衰老领域文献摘要进行嵌入向量化,通过余弦相似度(阈值>0.2)初筛,再经MedCPT交叉编码器(阈值>0.8)和NLI蕴含判断三重过滤,量化每个问题的文献支持度。最后采用K均值聚类、层次聚类和高斯混合模型共识聚类,形成11个主题分类。研究结果分析开放问题的文献分布特征自然语言处理分析显示,204个开放问题的文献关联量差异显著(1-10,808篇),中位值为437篇。排名前20的问题占据总关联文献量的40.3%,包括“我们为何衰老?”(10,808篇)、“体细胞突变积累是否导致衰老?”(5,977篇)等经典问题;而后20问题仅占0.2%,如“如何量化衰老过程中稳态能力空间的变化?”(1篇)等新兴方向。这种分布既反映了领域研究热点集中态势,也凸显出尚未探索的潜力方向。