面向基因表达数据过采样的生物学评估框架（BEFO）：提升合成数据生物学合理性以增强癌症分类模型临床可信度

《Journal of Biomedical Informatics》：Towards a Biological Evaluation Framework for Oversampling (BEFO) gene expression data

【字体：大中小】 时间：2025年10月19日 来源：Journal of Biomedical Informatics 4.5

编辑推荐：

　　本文提出了一种创新的生物学评估框架（BEFO），用于解决基因表达数据过采样过程中合成样本的生物学合理性问题。该框架通过整合加权基因共表达网络分析（WGCNA）和随机森林算法，评估合成样本与真实数据中基因共表达簇的匹配度，确保仅保留生物学特征一致的样本。实验表明，BEFO能显著提升过采样数据的生物学可行性（平均11%）和分类F1分数（平均9%），为生物医学机器学习应用建立了合成数据评估新标准。

Highlight

本研究的亮点在于：

•
提出首个针对过采样的生物学评估框架（BEFO），可独立于具体过采样方法使用
•
采用样本级评估策略，确保合成样本保持真实基因表达数据中WGCNA定义的基因共表达簇特征
•
通过随机森林和自监督分类方法评估合成样本与WGCNA基因共表达簇的匹配度
•
仅纳入比真实样本更符合所有WGCNA簇特征的合成样本，保证其生物学合理性
•
重复上述步骤直至数据集达到类别平衡
•
解决了类别不平衡场景下最优过采样方法的选择难题
•
实验证明该框架显著提升过采样队列的生物学可行性（Fowlkes-Mallows指数）和分类性能（F1分数），其p值经双尾Wilcoxon符号秩检验分别达到0.005和0.001