两阶段抽样提升高维生存模型性能:基于基因表达数据的实证研究
《BMC Medical Research Methodology》:Two-stage sampling for better survival model performance
【字体:
大
中
小
】
时间:2025年10月29日
来源:BMC Medical Research Methodology 3.4
编辑推荐:
本研究针对高维生存数据建模中训练样本特征对模型性能影响不明的问题,开发了两阶段目的性抽样方法。通过TCGA基因表达数据实证分析发现,控制训练样本的删失率和随访时间分布可显著提升Lasso Cox模型在训练、测试和外部队列中的C-index和Brier Score性能指标,为高维生存预测模型的数据拆分策略提供了方法学指导。
在精准医疗时代,基因表达数据等高维生物医学数据的涌现为疾病预后预测带来了新机遇。然而,当研究者试图利用这些数据构建生存预测模型时,一个常被忽视却至关重要的问题浮出水面:如何合理拆分数据用于模型训练和性能评估?传统的数据拆分方法如简单随机抽样,可能因训练样本与总体数据在生存特征上的差异而导致模型性能评估偏差。特别是在样本量有限、删失率高的生存分析场景中,不恰当的数据拆分可能使训练出的模型失去临床实用价值。
张云伟和Samuel Muller在《BMC Medical Research Methodology》上发表的研究,直面这一方法学挑战。他们通过系统的实证分析揭示了一个关键现象:训练样本的生存特异性特征(如删失率和随访时间分布)显著影响Lasso Cox模型在训练、测试及外部验证数据集上的性能。基于这一发现,研究者创新性地提出了两阶段目的性抽样方法,通过控制训练样本的生存特征与总体数据的一致性,有效提升了模型预测的准确性和稳定性。
研究方法的核心技术路线包含三个关键环节:首先,研究团队构建了系统的评估框架,将原始数据划分为训练集、测试集和外部验证集,确保模型评估的严谨性;其次,他们比较了简单随机抽样、分层抽样和提出的两阶段目的性抽样等多种数据拆分方法;最后,采用Lasso Cox模型作为基础预测模型,以C-index和Brier Score作为模型判别和校准的评估指标。研究涉及的四个真实世界基因表达数据集(TCGA-ACC、TCGA-BRCA、TCGA-BLCA和卵巢癌数据)涵盖了从78到1066不等的样本量,确保了研究结果的普适性。此外,通过两个系列的模拟研究(分别基于人工生成数据和TCGA-BLCA数据集特征),验证了方法在控制条件下的有效性。
模拟研究清晰地表明,训练样本特征显著影响模型在各个数据集上的表现。通过比较简单随机抽样与两阶段目的性抽样(在第二阶段控制删失率和生存时间分布),研究发现后者在所有训练-测试拆分比例下均能获得更高C-index和更低Brier Score的模型。
图2直观展示了这种性能提升趋势,绿色点(两阶段目的性抽样)始终位于红色点(简单随机抽样)的左上角,表示更好的综合性能。连接线的负斜率进一步印证了这一规律。值得注意的是,即使在不常见的10%训练样本比例下,控制训练样本特征仍能带来显著改善,这强调了训练样本与总体数据保持一致性的重要性。
在TCGA-BLCA真实数据集上的验证结果与模拟研究一致。两阶段目的性抽样技术通过限制训练样本的删失率(与完整数据相差不超过0.1)和生存时间分布(Kolmogorov-Smirnov检验p值>0.05),增强了数据拆分过程的稳定性。
如图3所示,除10%训练样本比例在测试集上的个别情况外,两阶段目的性抽样在所有拆分比例下均能提升模型在训练、测试和外部验证集上的性能。同时,研究观察到外部验证集性能随着训练样本比例增加而下降的趋势,表明最优训练-测试拆分比例高度依赖于数据特征。
随着用于训练的样本比例增加,模型整体性能呈现上升趋势。在卵巢癌数据集上的分析显示,训练样本比例从0.1增加到0.9时,C-index升高而Brier Score降低,表明模型判别和校准能力同步提升。
图4中的绿色曲线清晰展示了这一趋势,训练样本与完整数据的相似性(通过点大小表示)随采样比例增加而提高。相比之下,测试集性能随采样比例增加的趋势不如训练集明显,提示需要平衡训练样本量与代表性。
通过分层抽样技术控制生存相关变量,研究进一步证实了这些变量对模型性能的直接影响。当以删失率作为控制变量时,训练样本中删失观察比例的增加(从0.4到0.6)与模型性能下降相关;而以性别作为控制变量时,增加训练样本中女性比例(肾上腺皮质癌研究中已知的风险因素)可改善模型性能。
图5显示,在测试数据上,控制删失率时观察到类似趋势,而控制性别时未发现单调趋势,这可能与测试样本中生存时间分布的差异有关。在外部验证集上,改变删失率比例带来的差异较小,而增加女性比例则显著提升性能,这有助于理解影响生存的主要风险因素。
为避免结果局限于特定数据集,研究比较了四个真实世界高维基因表达数据集。结果显示,训练样本特征差异对模型性能的影响程度因数据集而异。
如图6所示,对于小样本数据集(如TCGA-ACC,n=78和卵巢癌数据,n=194),训练样本特征的差异导致模型性能(C-index和Brier Score)的变异性更大。相比之下,大样本数据集(如TCGA-BLCA,n=400和TCGA-BRCA,n=1066)的变异性较小,这表明数据拆分技术对小样本数据集构成更大风险。
研究结论强调,在高维生存数据分析中应谨慎考虑样本特征对模型性能的潜在影响,特别是在样本量小、删失率高的场景下。推荐使用两阶段目的性抽样等方法来管理训练样本的过度多样性,使训练样本特征与总体数据更加一致。此外,鼓励进一步的生存模型开发探索克服这一挑战的策略,以提升对此类数据集的预测能力。
这项研究的创新之处在于将传统抽样理论与生存分析的特殊性相结合,为高维生存预测模型的发展提供了方法学支持。研究结果提示,在构建预测模型时,除了关注算法本身,还应重视训练数据的代表性和质量控制。未来研究可探索训练样本特征对变量选择和不同类型生存模型(如随机生存森林和加速失效时间模型)的影响,进一步丰富生存分析方法学体系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号