编辑推荐:
为解决生物图结构细节难以捕捉及现有单细胞聚类熵方法不足等问题,研究人员开展拓扑熵量化生物图复杂性及图划分的研究。结果显示 TEC-O 和 TEC-U 在 TAD 检测和细胞聚类中表现优异。该研究为生物研究提供新方法和思路。
在生命科学研究的广袤领域中,生物图结构的复杂性一直是困扰科研人员的难题。比如在研究基因组时,Hi-C 接触图谱能形成基因组区域的有序图,从中识别拓扑相关结构域(TADs)至关重要,因为 TADs 与表观遗传和转录活动密切相关,其边界变化可能引发癌症和发育障碍。然而,现有方法在捕捉生物图复杂结构细节方面存在不足,像一些基于熵的 TAD 识别方法,面对噪声时效果不佳。在单细胞研究领域,单细胞测序技术虽为解析细胞功能多样性带来机遇,但现有聚类方法也存在缺陷,比如部分方法对噪声敏感,还有些需要预先设定聚类数或计算后才能确定聚类数 ,缺乏能同时具备多种功能的方法。
为了突破这些困境,研究人员开启了一项意义重大的研究。他们聚焦于如何更精准地量化生物图的复杂性,并通过优化图划分方法来提升 TAD 识别和单细胞聚类的准确性。研究人员引入了 “拓扑熵编码树” 的概念来量化生物图的复杂性,同时开发了两种方法,即针对有序图的 TEC-O 算法和针对无序图的 TEC-U 算法。该研究成果发表在《Computational and Structural Biotechnology Journal》上。
研究人员在研究过程中运用了多种关键技术方法。对于 Hi-C 数据,利用 Knight-Ruiz 归一化方法处理数据,将 Hi-C 接触图谱视为有序图,运用 TEC-O 算法进行 TAD 识别。在单细胞聚类研究中,先对单细胞分子数据进行降维处理,构建细胞 - 细胞相似性图,再使用 TEC-U 算法实现细胞聚类。此外,通过生成模拟数据和利用真实的 Hi-C、单细胞测序数据进行实验分析。
下面来看看具体的研究结果:
- 模拟有序图实验:研究人员生成包含不同噪声比例和 TAD 大小的模拟 Hi-C 接触数据。通过对比不同参数组合,发现α1=2.0和α2=0.85的组合对噪声敏感度最低,整体性能最佳。与 SuperTAD、deDoc2、3DNetMod 等方法比较,TEC-O 在噪声环境下表现出更高的准确性和鲁棒性,受噪声和 TAD 大小偏差的影响更小。
- 真实 Hi-C 接触数据实验:研究人员下载了 GM12878、IMR90 等多种细胞系不同分辨率的 Hi-C 接触数据集,以及 Micro-C 数据。结果显示,TEC-O 检测到的 TADs 长度更长,接触密度更高。在评估 TAD 边界的蛋白质富集和 TAD 内的组蛋白修饰富集时,TEC-O 识别的 TAD 边界对结构蛋白的富集程度更高,识别出的 TADs 中具有组蛋白修饰富集的比例更大。同时,TEC-O 在不同分辨率下识别 TAD 边界的一致性更好。
- 模拟无序图实验:研究人员生成二维和更高维的模拟数据评估 TEC-U 算法。在自动确定聚类数(auto-K)和预定义聚类数(predefined-K)两种模式下,与多种聚类算法比较,TEC-U 在高维数据的聚类中表现出色,尤其在处理模拟单细胞数据时,准确性更高。
- 单细胞 RNA 测序(scRNA-seq)和单细胞染色质可及性测序(scATAC-seq)数据实验:研究人员收集多个 scRNA-seq 和 scATAC-seq 数据集。使用调整兰德指数(ARI)和归一化互信息(NMI)评估聚类准确性,发现 TEC-U 在大多数数据集上的表现优于或与其他方法相当,且在 auto-K模式下得到的聚类数更接近真实值,能够构建更合理的细胞层次结构。
综合上述研究,研究人员成功引入拓扑熵来量化网络复杂性,并构建了具有最小拓扑熵的编码树。TEC-O 和 TEC-U 算法分别在有序图和无序图的划分中展现出优势,在模拟和真实数据实验中均表现优异,有效编码结构信息,为从噪声数据中发现知识提供了坚实基础。这一研究成果为生物研究领域提供了创新的方法和思路,有望推动 TAD 识别、单细胞聚类等相关研究的发展,帮助科研人员更深入地理解生物过程和疾病机制,具有重要的理论和实践意义。同时,研究人员也计划在未来对拓扑熵进行更深入的理论分析,并探索其在更多生物问题中的应用,进一步拓展该研究成果的应用范围 。