编辑推荐:
在单细胞生物学领域,确定细胞类型特异性基因功能是一大挑战。研究人员开展了名为 Specific Gene Label Propagation(SGLP)的研究,该研究能挖掘单细胞特异性基因簇并识别强特异性基因,对精准医学意义重大。
在生命科学的微观世界里,细胞特异性一直是生物学家们关注的焦点。细胞就像一个个精密的小工厂,各自有着独特的 “生产任务”,而这背后的 “指挥官” 便是基因。不同细胞的特异性,很大程度上源于基因的特异性表达。想象一下,人体是一座庞大而复杂的城市,每个细胞都是城市里的一座建筑,不同建筑有着不同的功能,比如医院、学校、工厂等,而基因就是那些决定建筑功能的蓝图。
在单细胞生物学的研究中,识别细胞类型特异性基因功能是一个重大挑战,却对精准医学有着深远意义。随着单细胞 RNA 测序技术(scRNA-seq)的发展,科学家们在与细胞特异性相关的研究中取得了一些突破,像识别自身免疫疾病、治疗缺血性中风、研究心肌细胞分化以及调查肠道细胞基因敲除等。但目前大多数方法都存在局限,多数是基于单细胞基因表达的差异分析来获取不同细胞类型的表达特异性基因。然而,基因可不是孤立行动的 “独行侠”,它们编码的蛋白质会相互作用,或者与其他分子互动。从网络生物学的角度看,这些分子间的相互作用才是决定细胞类型功能的关键,就好比城市里各个建筑之间的物资运输和信息交流决定了整个城市的运转。过去的研究方法,有的通过分析基因表达数据来挖掘细胞类型特异性基因,比如 SCMarker 能识别具有双峰 / 多峰分布表达水平且与其他基因共表达或相互排斥的基因;还有的借助统计测试和迭代特征选择方法来提高对基因组岛等特征的检测能力。近年来,机器学习和深度学习方法也被用于提升分析的准确性,比如用一组弱学习器投票选出重要基因、利用自动编码器的反卷积来识别调控模块、通过基于梯度的方法确定疾病相关基因等。但这些方法仅靠数值分析,很难在没有先验知识和相关注释的情况下,识别和解释基因相互作用的机制。而且,在基因组学研究中,选择合适的特征和模型、进行准确的数据预处理以及整合多种数据,对于准确识别基因簇至关重要。所以,利用基因网络来识别特定基因簇的方法应运而生。不过,大多数现有方法都是从宏观基因网络角度,用聚合单细胞数据来分析细胞类型特异性的基因相互作用机制,无法从单细胞内部网络的角度进行分析。
为了解开这些难题,来自未知研究机构的研究人员开展了一项关于单细胞特异性基因簇挖掘的研究,提出了一种名为 Specific Gene Label Propagation(SGLP)的算法。这项研究成果发表在《Biomedical Signal Processing and Control》上,为单细胞生物学研究带来了新的曙光。
研究人员在开展研究时,主要运用了以下几种关键技术方法:首先,收集和整理了来自文献的三个不同的人类和小鼠单细胞测序数据集,包括 Kim 数据集(包含肾细胞癌的原发性肾细胞癌(pRCC)、转移性肾细胞癌(mRCC)和患者来源的异种移植(PDX pRCC)的单细胞 RNA 测序数据,共 108 个单细胞)等。其次,基于基因重力网络(GGN)设计了挖掘特定基因簇的工作流程,先进行基因筛选获得特定的种子基因,再利用 SGLP 算法在单细胞基因重力网络中发现特定基因簇,最后从每个单细胞的基因簇中识别强特异性基因。
研究结果如下:
- 挖掘特定基因簇:SGLP 算法能有效挖掘不同细胞类型的单细胞特异性基因簇。它基于基因重力进行特定基因标签的传播,并整合邻域结构相似性来优化标签传播过程中的基因选择。在不同数据集上的实验表明,该算法能从单细胞网络中成功提取出特定基因簇。
- 识别强特异性基因:研究人员还提出了一种通过求异存同的方式挖掘强特异性基因的方法。从不同细胞的基因簇中找到共性,从而识别出那些在同一基因簇内相互作用的强特异性基因。
- 评估基因簇相关性:研究人员提出了一种新的评估指标 —— 基因簇聚集系数,用于评估特定基因簇内基因之间的相关程度,这有助于更深入地了解基因簇的特性。
在研究结论和讨论部分,细胞特异性是近年来生物信息学研究的重点,挖掘特异性基因对于探索基因功能、癌细胞识别、药物开发和基因敲除等都有着重要的应用价值。从单细胞网络的角度挖掘相互作用的特异性基因簇是一种创新的尝试,SGLP 算法从更精细的单细胞分辨率层面深入探究了细胞特异性的机制。它不仅能挖掘特定基因簇,还能识别强特异性基因,为单细胞生物学研究提供了更精细、更稳定的研究方法,推动了精准医学领域的发展,为未来攻克更多生命科学难题奠定了坚实基础。