
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Ensemblex:基于精度加权的群体规模单细胞RNA测序样本混合遗传解复用框架
【字体: 大 中 小 】 时间:2025年07月04日 来源:Genome Biology 10.1
编辑推荐:
本研究针对单细胞RNA测序(scRNAseq)样本混合实验中遗传解复用工具准确性不足的问题,开发了Ensemblex框架。该研究整合了Demuxalot、Demuxlet等四种算法,通过精度加权概率集成、图论双联体检测等技术,在包含80个iPSC系的计算混合样本中实现94.3%单联体分类准确率,较现有工具提升5.6%。研究证实该框架能显著提高神经退行性疾病模型等群体规模研究的分析可靠性,相关成果发表于《Genome Biology》。
单细胞RNA测序(scRNAseq)技术虽能揭示细胞异质性,但其高昂成本严重制约群体规模研究。特别是在神经退行性疾病领域,使用诱导多能干细胞(iPSC)建立疾病模型时,传统独立培养方式需耗费大量资源。虽然样本混合技术能降低成本,但现有遗传解复用工具在高度混合样本中表现欠佳——当混合样本超过24个时,Demuxlet等工具的分类准确率显著下降,且双联体识别率普遍低于70%,严重影响下游分析可靠性。
为突破这一技术瓶颈,McGill大学等机构的研究团队开发了Ensemblex框架。这项发表于《Genome Biology》的研究创新性地整合了四种解复用算法,通过三阶段分析流程解决了当前工具在群体规模应用中的关键缺陷。研究团队首先在96个计算混合样本(含4-80个iPSC系)中系统评估现有工具性能,发现单个工具平均仅能正确分类86.7%细胞,而Ensemblex通过精度加权模型将这一指标提升至90.1%。
关键技术方法包括:1)使用Parkinson's Progression Markers Initiative(PPMI)队列80例iPSC系建立计算混合样本;2)整合Demuxalot、Demuxlet等工具的SNP(单核苷酸多态性)分析结果;3)基于主成分分析(PCA)的图论双联体检测算法;4)在非小细胞肺癌(NSCLC)和ADHD患者iPSC衍生神经干细胞等实验数据集验证。
结果
现有遗传解复用工具性能评估
在模拟80个样本混合的基准测试中,ScSplit表现最差(30.9%准确率),而表现最佳的Demuxlet也仅达86.7%。所有工具均呈现随样本量增加而性能下降的趋势,尤其在双联体识别方面,平均准确率不足68.6%。
Ensemblex框架验证
三阶段流程使双联体识别率提升至77.6%,较单一工具提高9.9%。在NSCLC实验数据中,与CMO(细胞多重寡核苷酸)标记的基准相比,Ensemblex实现96.9%单联体真阳性率,错误率仅4.3%,显著优于Demuxlet(5.8%)等工具。
高度混合实验样本应用
在22例iPSC系分化为多巴胺能神经元(DaN)的数据中,Ensemblex成功克服了Demuxlet在分化第30天样本中的异常表现(仅29.7%贡献率),维持99.6%分类置信度。移除Ensemblex标记的双联体后,聚类稳定性指数(ARI)达0.942,优于其他方法。
差异基因表达分析影响
使用ADHD患者iPSC衍生神经干细胞数据证明,不同解复用工具可导致glia细胞差异表达基因(DEG)数量相差116倍。当排除Ensemblex标记的潜在双联体后,Souporcell等工具原报告的116个DEG信号完全消失。
这项研究确立了Ensemblex作为群体规模scRNAseq分析的新标准。其创新性体现在:1)首次实现80个样本混合的准确解复用;2)通过动态权重调整克服工具间性能差异;3)双联体识别率突破性提升。这些进展为神经退行性疾病等复杂疾病的群体规模单细胞研究提供了关键技术保障,同时将iPSC实验的样本通量提升近3倍。研究揭示的解复用误差对生物标志物发现的重大影响,也警示学界需谨慎选择分析方法。未来,该框架可扩展至snRNAseq(单核RNA测序)等新兴技术,推动单细胞组学在精准医学中的深度应用。
生物通微信公众号
知名企业招聘