编辑推荐:
在空间生物学领域,细胞类型和状态鉴定困难重重。研究人员开发 TACIT 算法解决此问题。该算法在多数据集上表现优异,能揭示疾病新表型,助力空间生物学临床应用。这一成果为该领域发展提供了有力工具。
在生命科学的微观世界里,细胞如同神秘的小精灵,它们的类型和状态一直是科学家们渴望揭开的谜题。在空间生物学领域,精准了解细胞在其原生环境中的空间分布和相互关系,对于揭示生命奥秘、攻克疾病难题至关重要。然而,当前的研究之路却布满荆棘。传统的细胞类型鉴定方法,如同在黑暗中摸索,既耗时又容易出错。比如,在处理复杂的细胞微环境时,由于分割噪声、信号串扰以及有限的分子和蛋白质标记物等问题,使得准确识别细胞类型和状态变得异常困难。而且,传统的无监督聚类方法在面对稀疏标记集时,就像巧妇难为无米之炊,难以有效分离不同的细胞群体。深度学习算法虽然崭露头角,但它对大量多样的训练数据的依赖,就像依赖拐杖走路一样,限制了其在不同场景下的广泛应用 。
为了打破这些困境,弗吉尼亚联邦大学(Virginia Commonwealth University)等多个研究机构的研究人员踏上了探索之旅,他们致力于开发一种更强大的工具,以实现细胞类型和状态的精准鉴定。最终,他们成功开发出 TACIT(Threshold - based Assignment of Cell Types from Multiplexed Imaging DaTa)算法,相关研究成果发表在《Nature Communications》上。这一成果犹如黑暗中的明灯,为空间生物学领域带来了新的希望。
研究人员在开展这项研究时,运用了多种关键技术方法。首先,在数据处理方面,他们对多种来源的空间多组学数据进行整合与分析,包括从公共数据库获取的数据集以及内部研究产生的实验数据。在算法构建上,TACIT 算法采用多步骤机器学习方法,通过基于空间转录组学和蛋白质组学数据计算细胞类型相关性(CTR)分数,并利用分段回归模型确定最佳阈值,以此对细胞进行分类。同时,研究中还运用了多种聚类算法,如 Louvain 聚类算法进行细胞微聚类分析,以及利用 k - 最近邻(k - NN)算法对混合细胞进行解卷积,从而准确确定细胞类型。
研究结果
- TACIT 算法的概念与流程:TACIT 算法适用于多种基于探针的单细胞分辨率空间单模态或多模态数据集。在使用该算法前,研究人员先对包含组织或细胞的图像进行分割,以确定细胞边界,然后量化、归一化相关特征,并将其存储在 CELLxFEATURE 矩阵中。TACIT 通过两轮细胞类型注释,先将细胞聚类为微聚类(MicroClusters,MCs),再计算 CTR 分数,确定最佳阈值,将细胞分为 “干净细胞”“混合细胞” 和 “未知细胞”。对于混合细胞,利用 k - NN 算法在相关特征子空间进行解卷积,最终确定细胞类型。
- TACIT 算法的性能评估:研究人员将 TACIT 算法与多种现有算法进行比较。在两个公开的人类数据集(PCF - CRC 和 PCF - HI)以及一个小鼠下丘脑视前区的 MERFISH 数据集上,TACIT 在细胞类型注释的准确性和可扩展性方面均优于其他算法,如 CELESTA、SCINA 和 Louvain 等。无论是在识别主导细胞类型还是罕见细胞类型上,TACIT 都展现出更高的准确率、召回率和 F1 分数。此外,通过不同实验设置评估发现,TACIT 在数据量减少或分辨率变化的情况下,依然能保持稳定且优异的性能。
- TACIT 算法在不同数据集上的应用:将 TACIT 应用于内部未发表的 Xenium 数据集时,它能够清晰区分多种细胞类型,如在唾液腺组织中准确识别出不同亚型的腺泡细胞、导管细胞和 T 细胞亚群等,且与 scRNA - seq 数据的相关性更高。在将空间蛋白质组学和转录组学数据结合应用于同一样本时,TACIT 在鉴定细胞类型上表现出色,能识别出更多细胞类型,且在注释结构细胞类型时误差更低。在对特定感兴趣区域(ROIs),如 GVHD 患者的新生三级淋巴样结构(TLS)进行分析时,TACIT 能有效克服分割误差,识别出更多免疫细胞类型,揭示 TLS 的真实细胞组成和细胞间相互作用关系。
- TACIT 算法在多模态细胞鉴定中的应用:研究人员通过整合空间转录组学(Xenium)和空间蛋白质组学(PCF)数据,利用 TACIT 算法准确识别细胞类型。研究发现,免疫细胞标记物在两种技术中的相关性低于结构细胞类型。聚焦于两种技术共有的标记物时,细胞类型鉴定的一致性可提高到 81%。同时,通过 TACIT 算法对免疫检查点抑制剂(ICI)通路关键成分 PD - 1/PDCD1 以及细胞周期标记物 Ki - 67/MKI67 的分析,揭示了不同细胞状态,这对于优化免疫治疗具有重要的临床意义。
研究结论与讨论
TACIT 算法的出现,为空间多组学领域带来了重大突破。它成功解决了传统方法在细胞类型鉴定中的诸多难题,通过自动化的细胞类型注释,提高了鉴定的准确性和可扩展性。该算法能够有效识别不同细胞群体,无论是主导细胞还是罕见细胞,都能精准定位,这为深入研究细胞的功能和相互作用奠定了坚实基础。
在临床应用方面,TACIT 算法展现出巨大的潜力。通过对 GVHD 等疾病的研究发现,整合空间转录组学和蛋白质组学数据对于深入了解疾病的病理机制至关重要。TACIT 算法能够准确鉴定细胞类型和状态,为精准医疗提供关键信息,有助于开发更有效的治疗策略。
然而,研究也发现当前空间多组学数据存在一些问题,如不同技术产生的数据存在差异,免疫标记物的相关性较低等。这提示未来需要更好地设计多模态面板,以提高细胞类型鉴定的准确性。随着生命科学技术的不断发展,整合多种先进的组学技术,如转录组学、蛋白质组学、空间表观基因组学、代谢组学以及 B 细胞和 T 细胞受体测序等,将成为未来研究的重要方向。这些技术的融合将为构建全面的组织图谱提供可能,从而更深入地理解细胞的功能和疾病的发生发展机制,推动个性化医学的进步,为人类健康事业带来新的曙光。