
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于动态规划算法的基因组邻近约束集覆盖问题优化解决方案及其在基因型组织表达谱估计中的应用
【字体: 大 中 小 】 时间:2025年07月06日 来源:Bioinformatics Advances 2.4
编辑推荐:
本研究针对基因型组织表达谱(GTEx)数据获取成本高的问题,创新性地将基因组邻近基因表达相似性转化为集覆盖问题。多伦多大学团队开发了基于动态规划的邻近集覆盖算法(Vicinity Set Cover),在保证计算效率(O(n2))的同时获得最优解,可将人类基因组参考基因数量从18,078个减少至330个(阈值200k bps时),平均估计误差控制在0.7±0.1。该研究为降低大规模RNA-seq实验成本提供了新思路,算法还可应用于相控阵天线优化等跨领域问题。
多伦多大学电气与计算机工程系的Jiahong Dong等研究人员在《Bioinformatics Advances》发表的研究,正是针对这一挑战提出了创新解决方案。研究团队发现,当基因间距在20-60k bps范围内时,无论顺反方向(sense/antisense),其表达谱Pearson相关系数(PCC)都显著增高。这提示可以通过精心选择的参考基因集来估算全基因组表达谱,从而大幅减少实验测量需求。然而,将这一问题转化为传统的集覆盖问题(Set Cover Problem)时,现有算法面临两难:分支定界算法(Branch and Bound)虽能获得最优解但计算复杂度为NP难,而贪心算法(Greedy Algorithm)虽快却可能给出次优解。
研究采用GTEx v8和MESA小鼠表达数据集,通过计算基因间PCC量化表达相似性,并对表达谱进行log转换和z-score标准化处理。关键技术包括:1)基于转录起始/终止位点(TSS/TES)的邻近阈值定义;2)将基因组连续排序特性融入动态规划算法;3)开发兼顾集合数量最少和平均估计距离最小的优化策略。算法实现通过Python 3.9.7完成,代码已在GitHub开源。
【结果与讨论】
估计误差与阈值关系
研究发现表达谱估计误差与邻近阈值呈正相关。

传统算法的局限性
将基因邻近关系映射为集覆盖问题时,

动态规划算法优势
提出的动态规划算法

最优路径选择标准
当存在多个等优解时,

该研究的创新价值体现在三方面:首先,为GTEx等大型转录组项目提供了降低成本的解决方案,例如在t=50k bps时仅需713个参考基因即可覆盖染色体1,平均误差0.64±0.12;其次,开发的算法可推广至单细胞测序等新兴数据;最后,提出的"邻近集覆盖问题"框架对天线布局优化等工程问题具有借鉴意义。未来研究可整合染色质开放程度(open chromatin)、拓扑关联域(TADs)等三维基因组特征进一步优化阈值选择策略。
生物通微信公众号
知名企业招聘