编辑推荐:
为探究支链氨基酸(BCAA)相关基因(BCAA-RGs)在骨关节炎(OA)中的作用机制,研究人员结合生物信息学与机器学习,从 GEO 数据库筛选差异基因,经多算法分析鉴定出 SLC3A2、SLC7A5 等标志物,构建预测模型并分析调控网络,为 OA 诊疗提供新方向。
骨关节炎(Osteoarthritis, OA)是全球范围内困扰超过 5 亿人群的慢性关节疾病,主要累及关节软骨、滑膜和软骨下骨。随着人口老龄化加剧,其发病率逐年攀升,然而当前诊断手段难以实现早期精准识别,治疗方案也缺乏个体化策略。尽管已有研究提示支链氨基酸(Branched-chain Amino Acids, BCAA)代谢与 OA 发病存在关联,但具体涉及的基因调控机制及潜在生物标志物仍不明确。在此背景下,昆明理工大学医学院与云南省第一人民医院(昆明理工大学附属医院)的研究团队开展了一项跨学科研究,旨在通过整合生物信息学与机器学习技术,挖掘 BCAA 相关基因(BCAA-Related Genes, BCAA-RGs)在 OA 中的关键作用,该研究成果发表于《BMC Musculoskeletal Disorders》。
研究团队首先从 Gene Expression Omnibus(GEO)数据库获取 OA 相关转录组数据(GSE114007 作为训练集,GSE51588 作为验证集),通过差异表达基因(Differentially Expressed Genes, DEGs)分析筛选出 4178 个差异基因,随后与从 Molecular Signatures Database(MSigDB)获取的 14 个 BCAA-RGs 取交集,得到 8 个候选基因。为进一步筛选核心标志物,研究人员综合运用三种机器学习算法:最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)回归、支持向量机递归特征消除(Support Vector Machine-Recursive Feature Elimination, SVM-RFE)和 Boruta 算法,最终通过算法交集确定 5 个候选生物标志物,其中 SLC3A2 和 SLC7A5 经 qRT-PCR 和免疫组化(IHC)验证,在 OA 组织中呈现显著表达差异。
研究结果
生物标志物筛选与验证
通过 DEGs 与 BCAA-RGs 交集分析,初步获得 8 个候选基因,经 PPI 网络分析显示 SLC7A5 与 SLC3A2、SLC43A2 等存在互作关系。结合 LASSO、SVM-RFE 和 Boruta 三种机器学习算法,最终筛选出 5 个基因,其中 SLC3A2 和 SLC7A5 在训练集与验证集中均表现出 OA 组高表达,且受试者工作特征曲线(Receiver Operating Characteristic Curve, ROC)下面积(Area Under the Curve, AUC)分别达 0.95 和 0.889,确认为核心生物标志物。
预测模型构建与评估
基于 SLC3A2 和 SLC7A5 构建列线图(Nomogram)预测模型,校准曲线显示预测值与实际值高度吻合,ROC 曲线验证其 AUC 为 0.981,表明该模型对 OA 发病风险具有高准确性预测能力。纳入年龄、性别等临床特征后重建的列线图进一步提示,≥60 岁人群及女性是 OA 高发群体,与流行病学数据一致。
功能富集与调控网络分析
基因集富集分析(Gene Set Enrichment Analysis, GSEA)显示,SLC3A2 和 SLC7A5 显著富集于核糖体、胰岛素信号通路、嗅觉转导等通路。通过 Starbase 数据库预测其调控的长链非编码 RNA(Long Noncoding RNAs, lncRNAs)和微小 RNA(MicroRNAs, miRNAs),构建了包含 XIST/hsa-miR-30e-5p/SLC7A5、OIP5-AS1/hsa-miR-7-5p/SLC3A2 等轴的 lncRNA-miRNA-mRNA 调控网络。此外,通过 Comparative Toxicogenomics Database(CTD)筛选出 150 种潜在靶向药物,其中对乙酰氨基酚和丙烯酰胺可同时作用于这两个标志物。
实验验证与机制探讨
qRT-PCR 和蛋白质免疫印迹(Western Blot, WB)实验证实,OA 患者软骨组织中 SLC3A2 和 SLC7A5 的 mRNA 及蛋白表达水平显著低于对照组,与生物信息学分析结果一致。机制上,两者形成的异源二聚体作为氨基酸转运体,可能通过激活哺乳动物雷帕霉素靶蛋白复合体 1(mTORC1)信号通路,参与调控软骨细胞代谢与炎症反应。
研究结论与意义
本研究首次通过多维度生物信息学分析与机器学习模型,系统揭示了 BCAA 代谢相关基因在 OA 中的关键作用,鉴定出 SLC3A2 和 SLC7A5 作为新型诊断标志物,并构建了高准确性预测模型。研究结果不仅为 OA 的早期诊断和个体化治疗提供了新靶点(如通过调控 XIST/miR-30e-5p/SLC7A5 轴干预疾病进展),还为靶向药物开发(如对乙酰氨基酚的潜在新用途)提供了理论依据。尽管研究基于公共数据库和体外实验,其结论仍需更大样本量临床队列及体内功能验证,但已为 OA 发病机制研究开辟了新方向,有望推动 “精准医疗” 在骨科领域的应用。
研究中应用的关键技术包括:GEO 数据库转录组数据挖掘、DEGs 分析(DESeq2 包)、机器学习算法(LASSO、SVM-RFE、Boruta)、GO/KEGG 功能富集、GSEA 通路分析、Starbase 数据库调控网络预测、qRT-PCR 与 IHC/WB 实验验证,以及 CTD 数据库药物预测。这些技术的整合运用体现了跨学科方法在复杂疾病研究中的优势,为后续机制探究提供了方法论参考。