编辑推荐:
为解决线粒体谷胱甘肽(mGSH)转运在癌症研究中机制不明,现有功能注释方法难以在生物背景下注释功能的问题,研究人员开展了基于混合机器学习框架对 mGSH 转运和代谢蛋白功能注释的研究。结果发现多个潜在 mGSH 转运相关基因,该研究有助于理解癌细胞代谢并提供新治疗靶点。
在细胞的微观世界里,谷胱甘肽(Glutathione,GSH)如同一位忙碌的 “守护者”,它是细胞内极为丰富的三肽抗氧化剂,在调节活性氧物种(Reactive Oxygen Species,ROS)方面发挥着关键作用,对众多生物过程至关重要。而在癌症的 “战场” 上,代谢变化是其显著特征,其中 GSH 代谢的改变尤为突出,它与肿瘤的增殖和存活紧密相关。线粒体作为细胞的 “能量工厂”,其中的线粒体谷胱甘肽(mitochondrial GSH,mGSH)在癌症代谢中也扮演着重要角色。然而,mGSH 进入线粒体的具体过程却如同迷雾,一直未被清晰地揭示。
与此同时,在蛋白质功能预测的领域中,尽管计算生物学随着 AlphaFold 和 RosettaFold 等技术的出现取得了一些进展,但从序列进行从头功能预测仍困难重重。现有的基于组学的功能注释方法也存在诸多局限,无法满足深入研究的需求。在这样的背景下,为了揭开 mGSH 转运和代谢的神秘面纱,来自加拿大渥太华大学医学院生物化学、微生物学和免疫学系等多个机构的研究人员开展了一项重要研究,相关成果发表在《BMC Bioinformatics》上。
研究人员采用了一系列先进的技术方法。在数据处理方面,他们从癌症细胞系百科全书(Cancer Cell Line Encyclopedia,CCLE)获取转录组学和代谢组学数据,并进行了细致的预处理,包括数据清洗、缺失值处理等。同时,还收集了知识型特征数据,如基于 MitoCarta 3.0 的线粒体定位分数和基于 TrSSP 的转运体活性分数。在模型构建上,利用 Python 语言和 scikit-learn 等工具,开发了多种机器学习分类器模型,如随机森林(Random Forest,RF)、决策树(Decision Tree,DT)等,并通过五折交叉验证和 100 次自助抽样迭代来评估模型性能。此外,还运用了蛋白质结构分析技术,包括获取 AlphaFold 和 SWISS - MODEL 的蛋白质结构、进行多序列比对和蛋白质结构比对等。
研究结果如下:
- 分类器模型性能良好:开发的三个独立分类器模型在注释线粒体定位、GSH 代谢关联和跨膜转运功能方面表现出色。RF 分类器性能最佳,平均受试者操作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve,AUROC)达到 0.900。混合模型(结合实验数据和知识型特征)比仅基于转录组学的模型表现更优。
- 发现潜在 mGSH 转运蛋白:通过分类器模型,确定了多个潜在的 mGSH 转运蛋白。在 SLC25 家族中,SLC25A39 被高度预测与 mGSH 代谢相关,而其同源物 SLC25A40 则未被预测相关,可能是由于 SLC25A40 表达量较低。此外,还发现了如 SLC25A10、SLC25A50、SLC25A24 和 SLC25A43 等潜在的 mGSH 转运蛋白。
- 非 SLC25 家族相关蛋白:除 SLC25 家族外,研究还发现了一些非 SLC25 家族的蛋白可能与 mGSH 代谢和运输相关,如丙酮酸羧化酶(Pyruvate Carboxylase,PC)、线粒体钙单向转运体(Mitochondrial calcium uniporter,MCU)、ATP 结合盒家族 B6(ATP - binding cassette family B6,ABCB6)和神经生长因子(neudesin neurotrophic factor,NENF)等。
- 转运蛋白结构分析:对 SLC25 蛋白进行结构分析发现,候选蛋白与已知的 mGSH 转运蛋白 SLC25A39 在结构上存在相似性,特别是在隧道区域。但在底物结合残基方面,存在一定差异,这表明它们的底物结合和运输机制可能有所不同。
- 模型比较与验证:与 DeepGOPlus 模型相比,本研究开发的混合 RF 分类器在功能注释任务上表现更优。同时,通过对其他代谢物相关的 GO 术语分类器的训练和测试,验证了该研究框架的有效性和稳健性。此外,利用不同数据集训练的分类器表现出相似的性能,表明该框架在不同生物数据集上具有适用性。
研究结论和讨论部分指出,本研究开发的混合机器学习框架在注释与 mGSH 代谢和运输相关的基因方面表现出色,为进一步研究癌症细胞代谢和寻找新的治疗靶点提供了重要线索。然而,研究也存在一些局限性,如训练数据集相对较小,使用基因本体术语可能不够精确等。但总体而言,该研究成果对于深入理解癌症中线粒体谷胱甘肽代谢和运输机制具有重要意义,为后续的实验研究和药物开发提供了有价值的参考,有望推动癌症生物学领域的进一步发展。