UNICORN:基于多任务学习的通用细胞表达预测框架及其在精准医疗中的突破性应用

《Nature Communications》:UNICORN: Towards universal cellular expression prediction with a multi-task learning framework

【字体: 时间:2025年10月28日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对单细胞多组学数据中基因表达预测的挑战,提出了UNICORN框架。该研究通过整合预训练生物序列嵌入和多组学信息,实现了细胞类型特异性表达预测,在胸腺和PBMC数据集上显著优于Enformer等现有方法(PCC提升>0.1)。其创新性在于引入不确定性估计模块和个体化基因组分析能力,为疾病机制解析和药物靶点发现提供了新工具。

  
在人类遗传学研究领域,从DNA序列直接预测基因表达水平一直是个巨大挑战。传统方法如Enformer和Borzoi虽然在某些任务上表现良好,但存在明显局限性:它们主要基于批量RNA测序数据训练,无法捕捉单细胞水平的异质性;且多数模型使用参考基因组序列,难以反映个体遗传变异对表达的影响。随着单细胞测序技术的普及,研究人员迫切需要能解析细胞类型特异性表达规律的新方法。
耶鲁大学研究团队在《Nature Communications》发表的这项研究,提出了名为UNICORN的创新框架。该框架通过多任务学习方式,首次实现了从生物序列到多组学表型的通用性预测。研究团队巧妙结合预训练生物语言模型与大型语言模型,不仅提升了预测精度,还引入了不确定性量化指标,为结果可靠性评估提供了新维度。
关键技术方法包括:1)利用Enformer、HyenaDNA等7种序列嵌入模型提取特征;2)采用多任务损失函数(包含互皮尔逊相关损失MPC、泊松负对数似然损失PNLL和均方误差损失MSE);3)基于GTEx(基因型-组织表达)队列的16个个体WGS(全基因组测序)与scRNA-seq(单细胞RNA测序)配对数据验证个体化预测能力;4)通过10X Multi-omic和CITE-seq数据集测试多组学联合预测性能。
探索UNICORN在表达预测中的能力
研究团队在胸腺和PBMC单细胞数据集上系统评估了UNICORN的性能。结果显示,在基因水平相关性评估中,UNICORN结合Enformer和LLM嵌入的模式(UNICORN_comb)表现最佳(胸腺数据集PCC=0.32±0.08)。特别值得注意的是,与传统方法相比,UNICORN在预测细胞类型标志基因表达时显示出明显优势。通过聚类分析发现,基于UNICORN预测结果生成的细胞聚类能更好区分不同细胞类型(NMI>0.85),说明其预测结果具有生物学意义。
揭示模型训练的复杂性
研究团队通过三种策略提升模型性能:超参数调优、单细胞数据稀疏性处理和伪批量数据聚合。结果显示,对单细胞数据进行z-score标准化能显著改善预测效果(MSE降低>15%)。更重要的是,将单细胞数据按细胞类型聚合为伪批量数据后,基因水平和细胞水平的相关性均大幅提升(PCC从0.05增至0.45),证明细胞类型特异性预测是更可行的策略。
通过不确定性估计提升预测性能
UNICORN创新性地引入了基于损失预测(LossPred)的不确定性估计模块。研究发现,低不确定性基因组的预测误差显著低于高不确定性组(MSE差异>30%)。基因本体富集分析显示,低不确定性基因更显著富集在调控细胞代谢过程(GO:0031323)等关键通路中,且与组织特异性功能相关。这表明不确定性评分能有效识别具有生物学重要性的基因。
分析细胞类型和个体对表达预测的影响
研究发现UNICORN在不同细胞类型间的预测性能存在差异。在胸腺数据集中,对早期胸腺祖细胞(ETP)的预测效果最佳,而巨核细胞(Mgk)预测效果最差。相关性分析表明,细胞数量与预测误差呈显著负相关(胸腺数据集corr=-0.83,p=0.003),说明增加测序细胞数能提升模型性能。
在个体化预测方面,研究利用GTEx项目中16个个体的配对WGS和scRNA-seq数据验证UNICORN的个体级预测能力。结果显示,UNICORN能准确反映个体特异性表达模式,而Enformer在此任务上表现不佳。特别值得注意的是,数据质量(通过聚类评分衡量)与预测性能高度相关,低质量样本的预测相关性显著偏低。
同时预测细胞类型分辨率的多组学表型
研究通过10X Multi-omic和CITE-seq数据集验证了UNICORN的多组学预测能力。结果显示,联合训练模式能显著提升各模态的预测性能,特别是在表面蛋白表达预测方面。研究还发现UNICORN能准确预测与骨稳态调控相关的NDEL1基因座附近峰值(chr1:8417393-8418413),其预测值与观测值相关性高达0.99,体现了模型在识别功能相关序列方面的潜力。
预测疾病效应和扰动效应揭示生物变异
研究团队在主动脉疾病、心肌病和化学扰动数据集上测试了UNICORN的条件特异性预测能力。结果显示,包含不同疾病状态的细胞能提升对正常细胞的预测性能,说明数据异质性有助于模型学习。在扰动实验中,UNICORN对不同扰动条件的预测性能存在差异,例如对Ganetespib(STA-9090)的预测相关性最高,而对Ketoconazole的预测相关性最低。这些差异反映了不同扰动对基因表达影响的异质性,为理解化合物作用机制提供了新视角。
研究结论表明,UNICORN框架成功解决了单细胞多组学数据中序列到功能预测的关键挑战。其创新点主要体现在三个方面:首次实现了个体化细胞类型特异性表达预测;通过不确定性估计提高了结果可靠性;多组学联合训练模式增强了模型的通用性。尽管在变异效应解析等方面仍有局限,但该研究为构建更完善的基因调控网络模型奠定了重要基础,对精准医疗和疾病机制研究具有推动作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号