
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双向稀疏贝叶斯学习的基因表达微阵列特征与样本联合选择模型研究
【字体: 大 中 小 】 时间:2025年09月03日 来源:Computers in Biology and Medicine 6.3
编辑推荐:
本研究针对基因表达微阵列数据高维度、小样本的挑战,提出了一种新型双向稀疏贝叶斯模型——相关性特征与向量机(RFVM)。该模型通过联合优化特征选择(FS)和相关性向量(RV)选择,在保持高分类精度的同时显著提升模型可解释性。实验证明RFVM在9个癌症微阵列数据集上优于现有方法,为精准医疗中的生物标志物发现提供了新工具。
在癌症研究领域,基因表达微阵列技术能够一次性检测成千上万个基因的活性水平,为揭示肿瘤生物学机制提供了海量数据。然而,这类数据通常呈现"宽数据"特征——基因数量(D)远超样本量(N),使得传统机器学习方法面临严峻挑战。高维度不仅导致计算复杂度剧增,更会引发过拟合问题,使得模型在独立验证时表现不佳。此外,医疗领域对模型可解释性的高要求,使得单纯追求预测精度的"黑箱"模型难以满足临床需求。
为应对这些挑战,西班牙卡洛斯三世大学的Albert Belenguer-Llorens团队在《Computers in Biology and Medicine》发表了创新性研究成果。他们提出的相关性特征与向量机(Relevance Feature and Vector Machine, RFVM)首次实现了特征与样本的双向稀疏选择,通过贝叶斯框架自动识别关键基因和代表性样本,在保持高精度的同时大幅提升模型可解释性。
研究团队采用变分贝叶斯推断(Variational Bayesian Inference)作为核心计算方法,通过自动相关性确定(Automatic Relevance Determination, ARD)先验实现特征选择,同时利用折叠正态分布(Folded Normal Distribution)处理非负权重约束。模型训练采用均值场近似(Mean-field Approximation)分解复杂后验分布,并引入泰勒展开近似处理逻辑似然函数。实验部分使用了9个公共癌症微阵列数据集(包括TCGA肺癌、乳腺癌等),通过5折交叉验证评估性能。
3.1 生成模型
RFVM创新性地在原始空间进行特征选择,在对偶空间实现样本选择。模型将基因表达数据X∈RN×D通过双重稀疏表示:特征选择变量v∈RD采用折叠正态先验,样本权重a∈R?采用高斯先验,通过ARD机制自动淘汰不相关项。这种设计巧妙规避了高维协方差矩阵计算,使模型能处理数万维基因数据。
3.2 模型推断
采用变分推断将后验分布分解为q(a)q(v)q(b)等因子,通过坐标上升法迭代优化。特别地,对逻辑似然函数采用一阶泰勒展开近似,使其与高斯分布共轭,显著简化计算。收敛标准设定为变分下界(L(q))相对变化小于10-8,确保解的质量。
3.3 预测分布
通过近似计算测试样本的预测分布p(t=1|t,X,x),采用概率单位函数(probit function)逼近sigmoid函数,最终得到解析解。这一步骤的创新在于同时考虑了特征权重v和样本权重a的不确定性,使预测更稳健。
4.1 数据库
在TCGA_lung(551样本×4789基因)等9个数据集上的实验表明,RFVM平均分类精度达92.3%,比传统SVM-?1提高7.5%。特别在SMK_CAN_187数据集(187×19993)中,RFVM仅需选择23个基因和58个样本即可达到95%准确率,验证了其稀疏性优势。
4.2 基线模型
与深度学习模型(如DeepGene Transformer)相比,RFVM在样本量小于500时表现更优;与稀疏模型(如PFCVM)相比,RFVM训练时间缩短60%,凸显其计算效率。特征选择结果与已知癌症标志基因(如EGFR、BRCA1)高度一致,证实了生物学合理性。
这项研究的核心价值在于首次实现了基因表达分析中"双稀疏"的贝叶斯解决方案。RFVM不仅解决了高维数据下的过拟合问题,其选择的特征集更能直接对应潜在生物标志物,为癌症分子分型提供了新思路。未来工作可扩展至多分类场景,并整合临床数据进一步提升预测效能。该模型的计算框架也为其他组学数据的分析提供了普适性范式。
生物通微信公众号
知名企业招聘