利用AutoML优化数据集选择,以提高乳腺癌变异致病性的预测准确性
《Computational and Structural Biotechnology Journal》:Leveraging AutoML to Optimize Dataset Selection for Improved Breast Cancer Variant Pathogenicity Prediction
【字体:
大
中
小
】
时间:2025年10月29日
来源:Computational and Structural Biotechnology Journal 4.1
编辑推荐:
乳腺癌致病性预测的自动机器学习框架基准测试及最优数据集筛选。采用TPOT、H2O和MLJAR三个AutoML框架,系统评估了四个数据集(包含癌症特异性及通用数据库)的分类性能,发现数据集2(整合COSMIC、cBioPortal等癌症特异性数据库)在所有框架中均表现最优,AUC达0.9999,其高预测力源于生物学相关的进化保守性评分和集成预测器。
乳腺癌(Breast Cancer, BC)作为全球范围内最常见的恶性肿瘤之一,其发病率和死亡率均居高不下,对全球公共卫生构成重大挑战。在世界卫生组织(WHO)的统计数据中,每年有超过200万女性被诊断为乳腺癌,其中约67万例导致死亡。这一疾病的形成受到多种因素的影响,包括遗传因素、环境暴露和生活方式等。在遗传层面,BC的发生与多种基因突变密切相关,例如BRCA1、BRCA2等。随着高通量DNA测序技术的广泛应用,研究人员面临着前所未有的数据量和复杂性,从而对遗传变异的分类和预测提出了更高的要求。因此,开发准确、高效且可解释的预测工具对于实现早期诊断和个性化治疗至关重要。
在这一背景下,自动机器学习(AutoML)技术为解决BC相关变异预测问题提供了新的思路。AutoML通过自动化数据预处理、特征选择、模型选择与超参数调优等步骤,显著提升了机器学习流程的效率与可复现性。这在生物医学研究中尤为重要,因为数据集往往具有高度的异质性和复杂性。TPOT、H2O AutoML和MLJAR AutoML是三种被广泛使用的AutoML框架,它们各自具有独特的优化策略和处理能力。TPOT基于遗传编程技术,能够动态调整机器学习流水线,从而在有限的类别数任务中实现较高的模型性能。H2O AutoML以其强大的分布式计算能力和多样化的集成方法,能够在大规模数据集上实现高效的预测模型构建。而MLJAR AutoML则因其用户友好性、内置的可解释性报告和灵活的实验模式而受到关注,特别是在生物医学和临床研究领域。
为了评估不同数据集在BC变异预测中的表现,研究人员对四种不同的数据集进行了系统性比较。这些数据集在来源、大小和质量上各具特点。其中,Dataset-1和Dataset-3被认为是通用数据集,主要来源于ClinVar和HGMD等非癌症特异性数据库,而Dataset-2和Dataset-4则融合了癌症特异性数据库,如COSMIC、CBioPortal、BRCAExchange和TCGA,以提高数据的针对性和丰富性。值得注意的是,Dataset-2在所有框架中均表现出最佳的预测性能,其AUC值达到了接近1的水平,表明其在识别致病性变异方面具有显著优势。相比之下,Dataset-1由于数据来源不够特异且样本量有限,表现相对较弱。Dataset-4虽然具有较大的数据量,但由于包含多种癌症类型的变异,可能引入了额外的噪声,从而影响了其预测性能。
为了确保模型训练和评估的公平性,研究采用了分层交叉验证方法,并对数据集进行了基因水平的平衡处理,以避免某些基因的过度代表。此外,数据预处理阶段还应用了KNN插补方法来处理缺失值,并通过标签编码处理分类变量,以提高模型的鲁棒性。在特征选择方面,研究结合了F检验和Kruskal-Wallis检验,以确保模型在不同假设下都能识别出重要的预测特征。最终,共有20个特征被选中用于模型训练,其中包括来自多个预测工具的评分,如ada_score、rf_score、MaxEntScan_diff、MaxEntScan_alt、Enformer_SAR、DEOGEN2_score、Enformer_SAD、VARITY_R_score、MutPred_score和VARITY_R_LOO_score。这些特征反映了多种预测方法的贡献,包括集合方法和深度学习方法。
在模型评估方面,研究采用了多种指标,包括AUC、精确度、召回率、F1分数、Cohen’s kappa和Matthews相关系数(MCC)。通过5折交叉验证和95%置信区间计算,研究人员确保了结果的统计稳定性。Dataset-2在所有框架中均表现出卓越的性能,尤其是在H2O AutoML中,其AUC值达到了1.00,显示出极高的分类准确性。TPOT和MLJAR也表现出了良好的泛化能力,尽管它们的AUC值略低于H2O。值得注意的是,Dataset-2的高精度和良好的校准性能表明其不仅在分类能力上优于其他数据集,而且其预测结果具有临床意义,能够为医生提供可靠的决策依据。
为了进一步理解模型的预测机制,研究应用了多种可解释性技术,如SHAP、排列重要性和LIME。这些方法帮助研究人员识别了哪些特征对预测结果影响最大。例如,SHAP分析显示,进化保守性评分(如phyloP100way、phyloP470way)和集合预测器(如MetaRNN、DEOGEN2、SiPhy)在所有框架中均被列为关键预测因子。这些特征与已知的乳腺癌相关生物学机制密切相关,如同源重组修复和DNA损伤响应。LIME分析则揭示了在具体案例中,不同特征如何影响模型的预测结果。例如,一个假阳性案例可能受到中等保守性评分和剪接预测工具的共同影响,而假阴性案例可能由于某些特征的阈值较低或信号冲突而被错误分类。这些分析不仅验证了模型的生物学相关性,还为后续的临床应用提供了重要的依据。
研究还对不同AutoML框架生成的模型结构进行了比较。TPOT由于其基于遗传编程的优化策略,生成了多种模型架构,能够适应不同的数据集特性。H2O AutoML则表现出更强的可扩展性,其分布式随机森林(DRF)和堆叠集成模型在多个数据集上均表现优异。MLJAR AutoML则以其内置的可解释性报告和快速原型开发能力著称,特别适合需要透明性和可复现性的临床研究。这些框架在处理BC相关变异数据时,各自展现了独特的适应性和优势,为未来开发更精确的预测模型提供了多样化的工具选择。
此外,研究还对不同数据集之间的变异重叠情况进行了分析。结果显示,Dataset-2与Dataset-4之间共享了大量变异,这表明其能够从广泛的癌症数据中提取出具有代表性的致病性变异。然而,Dataset-2也保留了217个独特的变异,这进一步证明了其在乳腺癌特异性变异识别方面的价值。这种平衡的结构使得Dataset-2在保持数据丰富性的同时,避免了因变异重复而可能带来的性能膨胀问题。因此,Dataset-2不仅在预测性能上优于其他数据集,还在数据质量和特异性方面表现出色,为BC的精准诊断和个性化治疗提供了坚实的基础。
从实际应用的角度来看,这项研究具有重要的临床意义。Dataset-2可以作为开发致病性预测工具的基础,用于指导诊断流程和变异优先级排序。此外,模型的可解释性特征,如SHAP值和LIME解释,为临床验证提供了透明的依据,增强了人工智能辅助决策系统的可信度。通过将这些模型集成到现有的临床基因组学工作流程中,如BRCA1/BRCA2变异重新分类,可以更有效地过滤变异不确定状态(VUSs),支持遵循ACMG/AMP指南的临床决策系统。同时,研究还指出,未来的工作应探索更复杂的模型结构,如基于网络的AutoML或图神经网络,以更好地捕捉DNA修复和信号通路中的复杂交互关系。
尽管研究取得了显著成果,但仍存在一些局限性。首先,缺乏独立的外部测试数据集限制了模型在真实临床环境中的泛化能力。因此,未来的研究应考虑引入来自实际患者的外部数据,以验证模型的稳健性和实用性。其次,不同公共数据库中变异致病性标签的不一致性可能影响模型的训练和评估。虽然研究通过数据集协调和冗余消除降低了这一风险,但ClinVar、HGMD等数据库之间的差异仍然是一个挑战。此外,当前的AutoML流水线在处理不同类型的变异(如体细胞与生殖细胞变异)时的适应性仍需进一步验证,以确保其在多种情境下的可靠性。最后,研究强调了开发隐私保护技术的重要性,如联邦学习和安全数据隔离,以确保AutoML模型在临床部署中的合规性和数据安全性。
综上所述,这项研究不仅系统评估了不同数据集在BC变异致病性预测中的表现,还展示了AutoML框架在提升预测性能和模型可解释性方面的潜力。通过深入分析数据集的结构和特征,研究为未来构建更精准、可解释的预测模型提供了重要的理论支持和实践指导。此外,研究还提出了将AutoML应用于其他遗传疾病的可能性,为精准医学的发展提供了通用的方法论框架。随着技术的不断进步和数据的持续积累,AutoML有望在生物医学研究和临床实践中发挥更大的作用,推动个性化医疗和基因组学的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号