SHICEDO:基于生成对抗网络的单细胞Hi-C数据增强方法,有效缓解过度平滑问题
《Bioinformatics》:SHICEDO: Single-cell Hi-C Data Enhancement with Reduced Over-Smoothing
【字体:
大
中
小
】
时间:2025年10月25日
来源:Bioinformatics 5.4
编辑推荐:
本研究针对单细胞Hi-C(scHi-C)数据稀疏性和噪声问题,开发了基于生成对抗网络(GAN)的SHICEDO模型。该模型通过秩一特征提取和通道注意力机制,在增强数据质量的同时有效缓解过度平滑现象。实验证明SHICEDO在A/B区室、TAD样结构域和染色质环检测中均优于现有方法,为单细胞三维基因组研究提供有力工具。
在生命科学领域,三维基因组结构研究正经历着从群体水平到单细胞水平的革命性转变。单细胞Hi-C(scHi-C)技术的出现,使科学家能够以前所未有的分辨率观察每个细胞核内染色质的空间组织形式。然而,这项突破性技术也带来了新的挑战——由于测序深度的限制,单个细胞产生的Hi-C数据极其稀疏且噪声明显,这严重阻碍了对染色质精细结构的准确解析。
传统的数据增强方法如scHiCluster和SnapHiC采用卷积和随机游走策略,虽然能在一定程度上填补数据空缺,但往往导致过度平滑现象,使重要的结构细节淹没在人工生成的信号中。而基于深度学习的方法如Higashi和ScHiCEDRN,虽然在一定程度上提升了数据质量,但仍难以平衡增强效果与结构保真度。这些局限性促使研究人员寻求更优的解决方案。
为了解决这一难题,加州大学河滨分校的研究团队开发了SHICEDO模型。该研究基于生成对抗网络(GAN)框架,专门针对scHi-C数据的特性进行了优化设计。研究团队在四个公开scHi-C数据集上进行了系统验证,包括人类前额叶皮层细胞、发育中小鼠胚胎细胞、小鼠胚胎干细胞等不同来源的样本,涵盖了1Mb、100kb和50kb等多种分辨率。
关键技术方法包括:基于GAN的增强网络架构,支持多尺寸输入的双分支设计;秩一特征提取模块,使用n×1卷积核有效捕获稀疏矩阵的结构特征;通道注意力机制,通过Squeeze-and-Excitation网络动态调整特征通道权重;采用HiCRep和GenomeDISCO等特异性评估指标进行性能验证。
通过像素级指标和Hi-C特异性相似度度量评估显示,SHICEDO在平均绝对误差(MAE)和宏观F1分数上均显著优于基线方法。在人类前额叶皮层数据集上,SHICEDO的MAE达到0.3908,宏观F1分数为0.7951,明显优于ScHiCEDRN和DeepHiC等对比方法。更重要的是,HiCRep层调整相关系数(SCC)和GenomeDISCO评分进一步证实了SHICEDO在保持染色质结构特征方面的优势。
研究团队特别测试了模型的泛化能力。当在人类脑细胞数据上训练后直接应用于小鼠胚胎干细胞数据时,SHICEDO仍能保持较好的性能,MAE降低25.02%,宏观F1分数提高8.85%。这表明模型学习到了跨物种保守的染色质结构特征,具备良好的迁移学习能力。
在1Mb分辨率下评估A/B区室识别效果时,SHICEDO增强后的数据显示出最高的识别准确率。通过允许基因组区间(bin)位置的小幅偏移来评估识别精度,发现SHICEDO在不同容错阈值下均能保持稳定的高性能,显著降低了细胞间变异度,为研究细胞异质性提供了可靠基础。
在100kb分辨率下分析拓扑关联结构域(TAD)样边界时,SHICEDO表现出优异的召回率。由于边界区间在全体区间中占比较小,数据存在严重不平衡性。SHICEDO在保持较高精度的同时,实现了最优的宏观F1分数,说明其在识别稀有结构特征方面具有独特优势。
3.5 SHICEDO增强矩阵助力精细尺度环状结构检测
在50kb分辨率下进行染色质环检测时,SHICEDO表现出卓越的特异性。虽然检测到的环状结构总数较少,但与真实数据的重叠度最高(如250kb基因组距离内,2750个检测环与真实数据完全匹配)。相比之下,其他方法由于过度平滑产生了大量假阳性信号,特别是在1Mb基因组距离范围内,Higashi检测到的环状结构数量超过真实值的四倍以上。
这项发表于《Bioinformatics》的研究标志着单细胞三维基因组数据分析方法的重大进展。SHICEDO通过创新的网络设计和特征提取策略,成功解决了scHi-C数据增强中的关键难题——在提升数据质量的同时保持结构细节。该模型的优势不仅体现在定量指标上,更在于其生物学意义的实用性,能够可靠地支持A/B区室、TAD样结构域和染色质环等多个层次的结构分析。
研究团队指出,未来的发展方向包括整合多分辨率数据以更全面地理解染色质结构,以及提升模型处理大规模数据集的能力。随着单细胞技术的快速发展,SHICEDO为探索细胞异质性和动态变化提供了强大工具,将推动三维基因组研究进入新的发展阶段。该模型的源代码已公开,采用MIT许可证,为领域内研究者提供了可直接使用的解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号