面向基因表达数据过采样的生物学评估框架(BEFO):提升合成数据生物学合理性以增强癌症分类模型临床可信度

【字体: 时间:2025年10月19日 来源:Journal of Biomedical Informatics 4.5

编辑推荐:

  本文提出了一种创新的生物学评估框架(BEFO),用于解决基因表达数据过采样过程中合成样本的生物学合理性问题。该框架通过整合加权基因共表达网络分析(WGCNA)和随机森林算法,评估合成样本与真实数据中基因共表达簇的匹配度,确保仅保留生物学特征一致的样本。实验表明,BEFO能显著提升过采样数据的生物学可行性(平均11%)和分类F1分数(平均9%),为生物医学机器学习应用建立了合成数据评估新标准。

  
Highlight
本研究的亮点在于:
  • 提出首个针对过采样的生物学评估框架(BEFO),可独立于具体过采样方法使用
  • 采用样本级评估策略,确保合成样本保持真实基因表达数据中WGCNA定义的基因共表达簇特征
  • 通过随机森林和自监督分类方法评估合成样本与WGCNA基因共表达簇的匹配度
  • 仅纳入比真实样本更符合所有WGCNA簇特征的合成样本,保证其生物学合理性
  • 重复上述步骤直至数据集达到类别平衡
  • 解决了类别不平衡场景下最优过采样方法的选择难题
  • 实验证明该框架显著提升过采样队列的生物学可行性(Fowlkes-Mallows指数)和分类性能(F1分数),其p值经双尾Wilcoxon符号秩检验分别达到0.005和0.001
方法
我们提出的过采样生物学评估框架(BEFO)包含4个关键步骤:(1)使用WGCNA定义的基因共表达簇检测生物模式;(2)采用过采样方法生成合成样本;(3)通过随机森林集合评估合成样本的生物学可行性;(4)以自学习方式重复此过程,将新生成的生物学可行样本不断加入训练数据参与后续生成。
数据集
为评估BEFO性能,我们在五个公开真实世界数据集上开展实验,另使用曼彻斯特大学提供的FASTMAN数据集。所有乳腺癌、胰腺癌、前列腺癌(剑桥分校)、前列腺癌(密歇根分校)和甲状腺癌数据集样本均来自癌症基因组图谱(TCGA)和基因表达综合库(GEO)。
讨论
本研究提出了一个评估肿瘤基因表达数据合成样本生物学可行性及相关性的框架,采用自学习方式生成生物学可行的过采样数据。结果表明,与传统深度生成方法(如GAN和VAE)相比,SMOTE、Borderline-SMOTE和ADASYN等插值法与WGCNA定义的基因共表达簇具有更高契合度。
结论
本研究旨在提升机器学习分类模型在合成基因表达数据中的可靠性及可信度,推动其临床转化以优化癌症风险分层和治疗决策。通过整合客观生物学关系和稳健的机器学习方法,该工作为生物信息学家和计算机科学家理解生物学过程、临床医生信任AI驱动模型提供了重要价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号