
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于全基因组测序与非自适应群组检测的大规模族群筛查方法EthniCS:成本降低4倍的高效祖先分析
【字体: 大 中 小 】 时间:2025年07月25日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对大规模族群筛查中样本制备成本高的问题,提出了一种结合全基因组测序(WGS)与非自适应群组检测的创新方法EthniCS。研究人员通过压缩感知(CS)理论与iAdmix算法,实现了在不降低准确性的前提下,将样本处理成本降低至1/4。结果表明,该方法在模拟数据和1000基因组计划(1KG)数据中均能精准重建个体祖先成分,尤其适用于稀疏族群(≤13%)的筛查。这一突破为疾病关联研究、法医学和个性化医疗提供了高效经济的解决方案,相关成果发表于《BMC Bioinformatics》。
在精准医疗和族群遗传学研究领域,祖先成分分析如同解开人类迁徙史的基因密码。传统基因分型芯片存在明显局限:位点选择受限于开发时的参考人群,且无法动态更新。尽管全基因组测序(WGS)技术成本持续下降,但样本制备环节仍占总支出的60%以上,成为大规模筛查的“卡脖子”环节。如何在不牺牲数据质量的前提下突破成本瓶颈?这个难题催生了基因检测领域的“拼单”革命——通过数学优化让多个样本共享测序资源。
以色列开放大学计算机科学系的Elior Avraham和Noam Shental团队独辟蹊径,将压缩感知(CS)这一信息论领域的“数据压缩黑科技”与WGS相结合,开发出EthniCS方法。该研究通过理论推导和真实数据验证,证明仅需传统1/4的样本处理量即可完成同等精度的祖先分析,相关成果发表于《BMC Bioinformatics》。
研究团队采用三步走策略:
实验数据涵盖1000基因组计划(1KG)和人类基因组多样性计划(HGDP)的1669个样本,涉及非洲(AFR)、欧洲等超级族群。
在1024个样本的模拟测试中,EthniCS展现出清晰的性能阈值:当非零族群比例≤13%时,仅需256个混合池(4倍压缩)即可实现MSE<10-5的精准重建。这种“相位跃迁”特性与CS理论预测完全吻合,

针对西南非裔美国人(占比2.8%)和西班牙伊比利亚人群(8.5%)两个极端案例,EthniCS均保持>45dB的PSNR值。特别值得注意的是,在非洲超级族群的重建测试中,即使族群比例升至7%,系统仍能通过“策略优选-梯度微调”双阶段优化保持稳定输出。
引入HGDP数据后,面对平均每人2.8个主要族群的复杂场景,EthniCS在512个混合池(2倍压缩)条件下仍可准确识别意大利托斯卡尼人群(占比18%)等非稀疏案例,

这项研究为基因组学领域带来三重突破:
未来研究可探索深度学习优化的传感矩阵设计,以及将该框架拓展至局部祖先推断(LAI)领域。正如作者强调,随着10美元基因组时代的临近,EthniCS这类“计算赋能实验”的方法将成为突破生物医学研究规模瓶颈的关键钥匙。
生物通微信公众号
知名企业招聘