基于全基因组测序与非自适应群组检测的大规模族群筛查方法EthniCS:成本降低4倍的高效祖先分析

【字体: 时间:2025年07月25日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对大规模族群筛查中样本制备成本高的问题,提出了一种结合全基因组测序(WGS)与非自适应群组检测的创新方法EthniCS。研究人员通过压缩感知(CS)理论与iAdmix算法,实现了在不降低准确性的前提下,将样本处理成本降低至1/4。结果表明,该方法在模拟数据和1000基因组计划(1KG)数据中均能精准重建个体祖先成分,尤其适用于稀疏族群(≤13%)的筛查。这一突破为疾病关联研究、法医学和个性化医疗提供了高效经济的解决方案,相关成果发表于《BMC Bioinformatics》。

  

研究背景:当基因测序遇上“拼单”智慧

在精准医疗和族群遗传学研究领域,祖先成分分析如同解开人类迁徙史的基因密码。传统基因分型芯片存在明显局限:位点选择受限于开发时的参考人群,且无法动态更新。尽管全基因组测序(WGS)技术成本持续下降,但样本制备环节仍占总支出的60%以上,成为大规模筛查的“卡脖子”环节。如何在不牺牲数据质量的前提下突破成本瓶颈?这个难题催生了基因检测领域的“拼单”革命——通过数学优化让多个样本共享测序资源。

以色列开放大学计算机科学系的Elior Avraham和Noam Shental团队独辟蹊径,将压缩感知(CS)这一信息论领域的“数据压缩黑科技”与WGS相结合,开发出EthniCS方法。该研究通过理论推导和真实数据验证,证明仅需传统1/4的样本处理量即可完成同等精度的祖先分析,相关成果发表于《BMC Bioinformatics》。

关键技术方法

研究团队采用三步走策略:

  1. 样本混合设计:使用伯努利传感矩阵将1024个样本按特定组合分配到256个混合池,实现4倍成本压缩
  2. 混合样本分析:借助iAdmix算法解析混合池的族群成分,该算法能处理二代测序(NGS)数据中的读长错误
  3. 信号重建:开发多策略优化框架,集成OMP、CoSaMP等6种压缩感知算法与DCT/DWT变换,通过峰值信噪比(PSNR)自选最优重建方案

实验数据涵盖1000基因组计划(1KG)和人类基因组多样性计划(HGDP)的1669个样本,涉及非洲(AFR)、欧洲等超级族群。

研究结果

模拟数据验证“相位跃迁”现象

在1024个样本的模拟测试中,EthniCS展现出清晰的性能阈值:当非零族群比例≤13%时,仅需256个混合池(4倍压缩)即可实现MSE<10-5的精准重建。这种“相位跃迁”特性与CS理论预测完全吻合,

显示算法在稀疏信号下的卓越性能。

1KG数据实战表现

针对西南非裔美国人(占比2.8%)和西班牙伊比利亚人群(8.5%)两个极端案例,EthniCS均保持>45dB的PSNR值。特别值得注意的是,在非洲超级族群的重建测试中,即使族群比例升至7%,系统仍能通过“策略优选-梯度微调”双阶段优化保持稳定输出。

复杂混合族群挑战

引入HGDP数据后,面对平均每人2.8个主要族群的复杂场景,EthniCS在512个混合池(2倍压缩)条件下仍可准确识别意大利托斯卡尼人群(占比18%)等非稀疏案例,

验证了方法的广泛适用性。

研究启示

这项研究为基因组学领域带来三重突破:

  1. 经济学价值:将千人级筛查成本从百万美元级降至25万美元级,使WGS真正可用于流行病学研究
  2. 技术融合示范:首次证明CS理论与NGS在族群分析中的协同效应,为其他组学检测提供新思路
  3. 动态扩展性:不同于固定位点的基因芯片,WGS+CS架构允许通过算法更新持续提升分辨率

未来研究可探索深度学习优化的传感矩阵设计,以及将该框架拓展至局部祖先推断(LAI)领域。正如作者强调,随着10美元基因组时代的临近,EthniCS这类“计算赋能实验”的方法将成为突破生物医学研究规模瓶颈的关键钥匙。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号