独立成分分析通过eQTLs(表达量数量性状位点)和sQTLs(结构数量性状位点)揭示了棉花纤维伸长的遗传基础
《Journal of Advanced Research》:Independent component analysis deciphers the genetic basis of cotton fiber elongation through eQTLs and sQTLs
【字体:
大
中
小
】
时间:2025年10月28日
来源:Journal of Advanced Research 13
编辑推荐:
单细胞RNA测序数据中提出scMapNet模型,结合自监督学习与treemap变换,将基因表达向量转换为图像,利用ViT和MAE架构学习细胞标记知识并处理无标签数据,显著提升细胞类型注释准确性和批量效应鲁棒性,支持新细胞类型发现。
近年来,单细胞RNA测序技术(scRNA-seq)在基因组学和转录组学研究中发挥了革命性的作用,它使得科学家能够以前所未有的精度研究细胞的异质性。然而,随着数据的快速增长和复杂性增加,传统的细胞类型注释方法面临着效率低、一致性差以及难以有效利用标记基因信息等问题。为了解决这些问题,研究人员提出了多种方法,包括无监督和有监督的方法。无监督方法通常依赖于聚类算法,通过基因表达模式相似性将细胞分组,然后基于已知的标记基因进行注释,但这种方法容易受到主观选择和先验知识的限制。而有监督方法则更自动化,能利用参考数据集进行训练,但其性能依赖于参考数据的质量和数量,且在处理高维稀疏数据时可能不够稳健。
在此背景下,scMapNet作为一种新型的深度学习模型,结合了自监督学习和视觉变换器(ViT)的优势,能够更高效地从大量未标注数据中学习细胞标记知识,并在任务数据上进行微调,以提升注释的准确性。scMapNet通过一种特殊的“treemap”变换将基因表达数据转化为图像形式,这种图像形式能够更直观地展现细胞标记的层级关系,从而为深度学习模型提供更丰富的上下文信息。随后,模型利用掩码自编码器(MAE)进行自监督预训练,通过掩码和重建的方式学习数据的内在结构,再在任务数据上进行微调,以实现更精确的细胞类型注释。
在多个实验数据集上,scMapNet展现出了卓越的性能,其注释准确率远高于其他几种常用方法,包括SingleR、SciBet、Seurat、SCINA、TOSICA和scBERT。尤其是在处理跨平台数据集时,scMapNet表现出良好的批效应不敏感性,这意味着它在不同来源的数据中仍能保持较高的注释质量。此外,scMapNet还具备较强的可解释性,它通过注意力机制识别出对细胞类型识别具有重要意义的基因,并将其映射到具体的生物学过程,从而为研究人员提供深入的生物见解。
为了验证scMapNet的性能,研究人员选取了多个数据集,包括人类胰腺细胞数据、PBMC(外周血单核细胞)数据和肿瘤浸润性髓系细胞数据。在这些数据集中,scMapNet不仅在准确率上表现出色,还能够有效区分相似但分布不平衡的细胞亚型。例如,在PBMC68k数据集中,scMapNet成功识别出CD4+/CD45RA+/CD25-幼稚T细胞和CD4+/T辅助2细胞等复杂且稀有的细胞类型,这在传统方法中往往较为困难。而在胰腺数据集中,scMapNet展示了出色的跨平台适应能力,即使在未去除批效应的情况下,也能实现高达98.6%的注释准确率。
除了在准确率上的优势,scMapNet还具有显著的计算效率。与其他深度学习模型相比,scMapNet在处理大规模数据时表现出了更快的推理速度,这使其在实际应用中更具优势。此外,通过注意力机制,scMapNet能够识别出对细胞类型识别具有重要意义的基因,这些基因不仅包括已知的标记基因,还可能包含新的潜在标记基因,为细胞类型研究提供了新的视角。
在生物信息学领域,基因表达数据的分析和注释是理解细胞功能和疾病机制的关键步骤。然而,传统的注释方法往往难以处理高维稀疏数据,并且依赖于先验的标记基因知识,这在某些情况下可能不够全面或准确。scMapNet的引入为解决这些问题提供了新的思路,它通过将基因表达数据转化为图像,并利用深度学习模型进行自监督学习和任务微调,从而实现了更高效、更一致的细胞类型注释。这种方法不仅提升了注释的准确性,还增强了模型对不同数据分布的适应能力,使得scMapNet在各种应用场景中都表现出色。
值得注意的是,scMapNet在探索新的细胞类型方面也展现了其独特的优势。通过设定一个阈值,模型能够识别出那些未被参考数据集涵盖的细胞类型,并将其归类为新的细胞类型。这一能力对于发现未知细胞亚型和研究罕见细胞类型具有重要意义。此外,scMapNet还能够识别出一些潜在的生物标志物,这些标志物可能在传统的注释方法中被忽视,但对细胞功能和疾病机制的理解具有潜在价值。
综上所述,scMapNet作为一种结合了自监督学习和视觉变换器的深度学习模型,为单细胞数据的注释提供了新的解决方案。它不仅在准确率和批效应不敏感性方面优于现有方法,还具备良好的可解释性和计算效率。这些优势使得scMapNet在处理复杂、高维的单细胞数据时表现出色,为细胞类型识别和功能研究提供了有力的工具。未来,研究人员计划进一步拓展scMapNet的应用范围,探索更多下游任务,并优化模型的计算效率,以更好地服务于生物学研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号