
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于树结构对偶动态规划的快速肿瘤系统发育回归算法fastppm及其在低覆盖率测序数据中的应用
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
研究人员针对肿瘤系统发育重建中固定拓扑回归问题的计算瓶颈,开发了fastppm工具,通过树结构对偶动态编程(TSDDP)技术实现了对l2、分段线性及二项式等损失函数的高效优化,在模拟和真实数据中取得50-450倍加速,为低覆盖率测序数据的准确分析提供了新方法。
肿瘤进化研究是理解癌症发生发展的关键,而通过多区域测序数据重建肿瘤系统发育树(phylogeny)是揭示这一过程的重要方法。然而当前面临三大挑战:一是测序数据反映的是克隆混合状态,需要同时解卷积和重建进化历史;二是现有方法多采用频率近似处理,丢失了原始计数数据的信号;三是计算复杂度限制了分析规模,尤其对突变级别的直接重建。这些瓶颈使得肿瘤系统发育推断在临床大数据时代面临严峻的可扩展性和准确性挑战。
针对这一领域核心的计算瓶颈——固定拓扑下的完美系统发育回归(PPR)问题,普林斯顿大学(Princeton University)和伊利诺伊大学厄巴纳-香槟分校(University of Illinois Urbana-Champaign)的研究团队开发了fastppm工具。该研究通过创新的树结构对偶动态编程(TSDDP)技术,实现了对任意可分凸损失函数的高效优化,在保持精度的同时获得数量级的加速,相关成果发表在生物信息学权威期刊《Bioinformatics》上。
研究采用三大关键技术:1)基于树结构的动态编程算法框架,将原始问题转化为树可分离的优化问题;2)针对l2损失开发了O(nlogn)复杂度的精确解法,相比现有方法提升一个数量级;3)对二项式等复杂损失函数,提出分段线性近似(PPLA)和交替方向乘子法(ADMM)两种优化策略。实验数据包含90个模拟肿瘤和结直肠癌小鼠模型(POP66)的低覆盖率(20x)测序数据。
通过拉格朗日对偶性证明PPR问题等价于树可分离优化问题,建立TSDDP通用框架。对l2损失实现O(min{n2,n?dlgr})复杂度,对k段线性损失实现O(nklog2(nk))复杂度,均显著优于现有算法。特别地,对随机树结构可达O(n3/2loglogn)的期望复杂度。
在l2损失下相比专用算法projectppm提速111倍,相比商业求解器MOSEK提速858倍;对二项式损失,ADMM实现版本比CVXOPT快400倍。整合到现有工具中,使Sapling处理突变数从50提升至500,CITUP和Orchard分别获得5-10倍和3-5倍加速。
在20x覆盖度的模拟数据中,基于二项式损失的Sapling*相比l2损失方法F1值提高8%,在结直肠癌PDX模型中,其推断频率与原始数据的l2误差降低20%,负对数似然值改善73。
研究首次实现直接基于读计数的精确建模,避免频率近似的信号损失。fastppm的模块化设计使其可无缝整合到CITUP、Orchard等现有流程,仅需50行代码修改即获得显著加速。对POP66数据的分析证实,该方法在低覆盖率下仍能保持较高准确性,为扩大测序广度(更多区域/活检)提供技术保障。
该研究通过基础算法的突破性创新,解决了肿瘤系统发育领域长期存在的计算瓶颈问题。TSDDP框架的通用性为后续支持更多损失函数(如泊松、负二项分布)奠定基础,而高效实现使得突变级别的全基因组分析成为可能。随着单细胞和多组学数据的普及,fastppm的技术路线将为肿瘤进化研究提供新的方法论支持,特别是在临床转化中平衡测序深度与广度的现实挑战下,其低覆盖率数据分析优势具有重要应用前景。
生物通微信公众号
知名企业招聘