因果生物矿工:用于微阵列转录组学治疗亚组分类的反应生物标志物发现框架
《Expert Systems with Applications》:Causal Bio-miner: Response Biomarkers Discovery Framework for Microarray Transcriptomics Treatment Subgroups Classification
【字体:
大
中
小
】
时间:2025年11月24日
来源:Expert Systems with Applications 7.5
编辑推荐:
本研究提出了一种基于因果推断的生物标记发现框架,用于区分随机对照试验(RCT)中的响应和非响应亚组。该方法结合判别分析、特征排序、统计显著性、关联评分及因果推断,验证了在LiTMUS和Breast Cancer数据集上显著优于传统方法(如方差分析和DLDA)。实验表明,使用最少特征(如LiTMUS中3个特征)即可达到83.33%的准确率,同时减少冗余特征。结论指出,当因果估计值在0.15-0.2之间时效果最佳,未来将整合表观遗传学数据优化精准医疗应用。
在生物医学领域,治疗反应生物标志物的识别是推动个性化医疗和精准治疗的重要基础。这项研究提出了一种基于判别分析和因果推断的响应生物标志物发现框架,旨在从随机对照试验(RCT)数据集中提取最小可能的特征,并用于治疗反应的子群分类。该框架包括两个主要阶段:因果生物挖掘和生物标志物验证。通过应用判别分析、特征排序、统计显著性分析、关联评分以及因果推断,该方法能够有效识别出与治疗反应相关的生物标志物,并在实际应用中表现出更高的分类准确率。
在第一阶段,因果生物挖掘,通过多种技术从数据集中提取出具有显著意义的生物标志物。其中包括判别分析,这是一种用于区分两个类别特征的统计方法,能够识别出对分类影响较大的特征。随后,通过特征排序来确定这些特征的重要性,再结合统计显著性检验,进一步筛选出与治疗反应相关性较高的生物标志物。关联评分用于评估这些生物标志物与治疗反应之间的关系,而因果推断则通过倾向得分匹配方法,对每个特征进行因果效应的估计,从而确认其对治疗反应的贡献。
在第二阶段,生物标志物验证,使用机器学习分类算法和因果推断方法来验证这些生物标志物的分类效果。研究中采用的机器学习算法包括随机森林、Ada Boosting、支持向量机(SVM)等,而因果推断则提供了对生物标志物的进一步评估,以确保其在不同子群中的适用性。通过这种方式,该框架不仅能够识别出具有统计显著性的生物标志物,还能确保这些标志物在因果推断方面具有较高的估计值,从而提高分类的准确性和可靠性。
为了验证该框架的有效性,研究者在三个公开的转录组微阵列数据集上进行了实验:LiTMUS(GEO: GSE45484)、乳腺癌(GEO: GSE20271)和乳腺癌(GEO: GSE41998)。这些数据集分别代表了不同疾病的治疗反应情况。在LiTMUS数据集中,通过使用3个特征,锂治疗子群的分类准确率达到了83.33%,而非锂治疗子群的分类准确率则达到了93.75%。而在乳腺癌数据集中,使用12个特征的FAC×6子群分类准确率为81.90%,使用13个特征的T/FAC子群分类准确率为92.70%。这些结果表明,该框架在分类准确率方面优于传统的统计方差和对角线线性判别分析(DLDA)方法。
研究还探讨了因果推断在生物标志物识别中的重要性。传统的统计方法通常基于方差分析,但忽略了治疗反应的因果关系,而因果推断则能够更准确地评估生物标志物对治疗反应的因果影响。这种方法特别适用于存在类别不平衡的RCT数据集,因为它能够通过倾向得分匹配或加权方法,提高子群分类的准确性。此外,该框架在数据集中采用了可解释的人工智能(XAI)技术,如SHAP(Shapley Additive Explanations)方法,以确保模型的可解释性,从而为临床决策提供更可靠的依据。
在LiTMUS数据集的分析中,通过因果推断和特征筛选,研究者发现了一些关键的生物标志物,如C14ORF45、STOML2、TPM1、NP、WDR51B和LOC730455。这些基因在大脑发育和功能调节中起着重要作用,并且在锂治疗过程中表现出显著的调控作用。而在乳腺癌数据集中,一些关键的生物标志物如STAT1、DGKZ、CXCL、BTN3A3和SKP2被发现与免疫反应和肿瘤进展密切相关。这些生物标志物的识别不仅有助于理解疾病的生物学机制,还能够为个性化治疗提供指导。
此外,研究还强调了生物标志物验证的重要性。通过应用多种机器学习算法和因果推断方法,研究者能够更全面地评估生物标志物的分类能力,并选择最适合的算法进行模型构建。例如,在LiTMUS数据集中,使用Naive Bayes算法的PF DEGs(经过因果推断筛选的差异表达基因)在分类中表现最佳,而在乳腺癌数据集中,使用KNN算法的PF DEGs在某些子群分类中也达到了较高的准确率。这些结果表明,该框架在实际应用中具有广泛的适用性和有效性。
总的来说,这项研究提出了一种基于因果推断的响应生物标志物发现框架,通过整合判别分析、特征排序、统计显著性分析、关联评分和因果推断等技术,能够有效识别出与治疗反应相关的生物标志物,并在实际应用中表现出更高的分类准确率。这种方法不仅能够提高治疗反应预测的准确性,还能减少特征数量,从而提高计算效率和模型的可解释性。此外,该框架在不同类型的RCT数据集中均表现出良好的性能,为个性化医疗和精准治疗提供了新的思路和方法。未来的研究可以进一步探索该框架在其他类型的数据集中的应用,并结合表观遗传学、蛋白质组学等多组学数据,以更全面地理解治疗反应的生物学机制。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号