
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ASHG 2021:单细胞数据分析的新算法让细胞注释更准确
【字体: 大 中 小 】 时间:2021年10月27日 来源:生物通
编辑推荐:
加拿大安大略癌症研究所的研究人员近日开发出一种算法,能够根据单细胞转录组学数据更好地对肿瘤微环境中的细胞进行分类,并追踪转移性癌症的起源组织。
加拿大安大略癌症研究所的研究人员近日开发出一种算法,能够根据单细胞转录组学数据更好地对肿瘤微环境中的细胞进行分类,并追踪转移性癌症的起源组织。
在上周举行的美国人类遗传学学会年会上,多伦多大学的研究生Ido Nofech-Mozes介绍了他的团队如何开发出一种工具,在单细胞RNA-seq癌症研究中用于癌症、免疫和基质细胞的自动注释。
Nofech-Mozes表示,手动注释这些细胞十分困难,因为患者之间存在很大程度的异质性,这使得人们很难找到一致的标志物,用于不同癌症样本的分类。“癌细胞往往按患者聚类,而不是细胞类型,”他说。
为了构造算法,Nofech-Mozes及其同事使用了一篇去年发表的论文中的参考数据,这篇论文提供了198个癌细胞系的53,000个癌细胞的单细胞数据,代表了22种实体瘤和58种癌症亚型。他们还添加了今年发表的一篇论文中的CITE-seq数据。
最后,他们还加入了10,000个基质细胞的数据,它们来自人类细胞图谱中的四种正常组织,包括成纤维细胞、平滑肌细胞、内皮细胞、少突胶质细胞和肠神经胶质细胞。
该算法本身使用差异表达的基因来选择特征,并采用多个层次组织的随机森林模型进行训练。
“我们能够降低癌症分类的复杂性,”Nofech-Mozes说。细胞在几个层次上进行分类:第一层是确定它们是癌细胞、血细胞还是基质细胞,而最高层次的分类是给细胞贴上“卵巢癌细胞”或“CD8+ T细胞”的标签。
多伦多大学的团队将他们的算法与其他三个算法进行比较,包括由约翰霍普金斯大学开发的单细胞数据工具SingleCellNet;由Wellcome Sanger研究所开发的最近邻分类算法scmap,将细胞投影到参考数据集上;以及由荷兰玛西玛公主儿童肿瘤中心开发的CHETAH。
研究人员在一个大型的肿瘤来源细胞图谱上验证了他们的算法,该图谱包含超过100万个细胞的数据,来自250名患者,代表14种主要的癌症类型。所有细胞都带有原始研究作者的注释。他们计算了代表分类质量的F1分数,并与其他三种算法进行比较。
Nofech-Mozes表示,他们的算法在癌细胞上的得分是 0.93(满分是 1.00),大大优于其他算法,因为其他算法很难解释患者之间的异质性。基质细胞的得分为 0.99,血细胞的得分为0.89,都击败了其他算法,尽管后者的表现也不错。
利用这一新工具,研究团队重新分析了博德研究所去年发表的肺癌样本数据。新工具分辨出哪些上皮细胞簇是癌变的,并将其鉴定为肺癌细胞。他们甚至能够在研究中对T细胞进行分型,并对某些罕见的树突状细胞进行注释。
此外,研究人员还举了一个例子,说明利用这种新工具能够追踪转移性癌症的起源组织。他们将肝脏样本中的恶性细胞识别为乳腺癌细胞。
Nofech-Mozes表示,该算法开启了单细胞水平的多癌种研究,有助于人们了解癌症如何进展并寻找新的治疗靶点。他认为,这种方法还能对循环肿瘤细胞进行分型。