编辑推荐:
为解决单细胞测序(scRNA-seq)数据稀疏、噪声及现有基因调控网络(GRN)推断方法的局限问题,研究人员开展 HGATLink 框架研究。结果显示,该框架在 14 个 scRNA-seq 数据集上比 10 种先进方法更稳定准确,为 GRN 推断提供新途径。
在生命科学的微观世界里,基因调控网络(Gene Regulatory Networks,GRN)如同一张无形却至关重要的 “大网”,掌控着细胞的命运与生物的奥秘。它描绘了基因之间复杂的调控关系,对研究生物系统和疾病发生发展的机制起着关键作用。随着科技的进步,单细胞测序(single-cell RNA sequencing,scRNA-seq)技术应运而生,让科学家们能够深入到特定细胞类型中探索基因调控的秘密。然而,这项技术带来的大量数据却充满挑战,数据的稀疏性和噪声问题,就像迷雾一样,阻碍着科研人员精准地推断 GRN。
与此同时,现有的 GRN 推断方法也存在诸多不足。基于统计和信息理论的方法,有的需要先验假设,有的计算复杂度高;传统机器学习方法在处理大规模数据时面临计算资源的瓶颈;深度学习方法虽有优势,但也存在诸如忽略长程节点信息、难以平衡正负样本等问题。这些问题使得构建准确的 GRN 困难重重,也促使科研人员不断探索新的解决方案。
在这样的背景下,内蒙古农业大学计算机与信息工程学院计算机科学与技术系以及内蒙古自治区大数据研究重点实验室的研究人员 Yao Sun 和 Jing Gao,开展了一项极具意义的研究。他们提出了一种名为 HGATLink(single-cell gene regulatory network inference via the fusion of heterogeneous graph attention networks and transformer)的基因调控网络推断框架,相关研究成果发表在《BMC Bioinformatics》上。
研究人员在构建 HGATLink 框架时,采用了多种关键技术方法。首先,在数据集处理方面,他们使用 BEELINE 提供的 scRNA-seq 数据集,针对 7 种细胞类型进行数据预处理,筛选出表达量较高的基因,并构建基因对数据。在模型构建中,通过离散化基因表达矩阵构建异质图,利用异质图注意力网络(Heterogeneous Graph Attention Network)和简化的 Transformer 架构进行链路预测。其中,异质图注意力网络能够有效捕捉复杂的基因相互作用,Transformer 则增强了对基因长程依赖关系的学习能力。
实验设置与结果
为全面评估 HGATLink 的性能,研究人员采用了受试者工作特征曲线下面积(AUROC)和平均精度均值(AUPRC)这两个评估指标,并使用三折交叉验证来确保实验的可靠性。在训练过程中,精心调整参数,如将学习率设为 1e-3(mESC 数据集为 4e-4),权重衰减设为 1e-6 ,批量大小设为 512 ,并在 GPU 上进行训练优化。
研究人员将 HGATLink 与 10 种当前最先进的 GRN 推断方法进行对比实验。在 14 个 scRNA-seq 数据集上,HGATLink 表现卓越,在 AUROC 指标上,14 次实验全部达到最优,相比表现第二好的方法,最大提升了 4%;在 AUPRC 指标上,13 次实验最优,充分展示了其强大的链路预测能力,在不同规模和类型的数据集上都表现出良好的稳定性和鲁棒性。
为深入探究 HGATLink 关键模块的有效性,研究人员进行了一系列消融实验。验证 Transformer 解码器重要性的实验中,仅基于 Transformer 编码器进行基因调控关系预测时,在多个数据集上 AUROC 和 AUPRC 指标均出现下降;验证位置编码影响的实验发现,去掉位置编码后,模型在所有 7 个数据集上的指标均下降,表明异质图注意力网络学习的位置信息对模型很重要;分析不同矩阵分解类别对模型性能影响时,发现当矩阵分解类别参数 k = 15 时,AUROC 和 AUPRC 指标均有所提升;不同嵌入维度的实验显示,256 维的嵌入维度在保证模型性能的同时,比 512 维更稳定且计算资源消耗更低;在评估不同交叉验证方法时,发现三折交叉验证与五折交叉验证性能相当,但三折交叉验证在计算资源和模型稳定性上更具优势;数据集划分方式的实验表明,HGATLink 在不同数据集划分方式下都具有较高的稳定性;此外,在减少正样本比例的实验中,HGATLink 在有限正样本情况下仍能保持较高的推断准确性。
研究结论与讨论
HGATLink 通过融合异质图注意力网络和 Transformer,有效解决了单细胞基因调控网络推断中的诸多难题。它不仅能够捕捉复杂的网络结构,还能探索节点的长程邻域关联,在处理细胞异质性和数据不平衡问题上表现出色。与传统基于特征学习的注意力方法相比,其自适应权重调整学习方法对网络中节点的拓扑位置更为敏感。
然而,研究人员也指出,目前许多生物数据存在高维度和低样本量(HDLSS)的问题,这对基因调控网络推断仍是一个巨大挑战。尽管 HGATLink 在分析小样本数据和探索长程节点关系方面具有优势,但未来还需进一步优化嵌入特征的计算效率。
总体而言,HGATLink 为基因调控网络推断研究提供了全新的思路和方法,让科研人员在探索基因调控奥秘的道路上迈出了重要一步,有望为深入理解疾病机制和开发精准治疗策略提供有力支持。