低覆盖度测序中法医似然比(IBDGem)的假设检验偏差与标准化路径探索

【字体: 时间:2025年05月28日 来源:Forensic Science International: Genetics 3.2

编辑推荐:

  本研究针对低覆盖度测序数据法医鉴定工具IBDGem输出的似然比(LR)存在假设检验偏差问题,通过理论分析和模拟实验揭示其默认检验"样本来源于参考数据库个体"的零假设与传统法医假设的本质差异,证明该算法可能高估证据强度达多个数量级,为法医基因组学的统计方法标准化提供重要修正方向。

  

随着二代测序技术的发展,法医科学家如今能够从极微量的生物样本中获取遗传信息。然而当样本DNA含量极低时,常规短串联重复序列(STR)分型所需的PCR扩增可能失败,此时低覆盖度测序成为替代方案。IBDGem作为新兴计算方法,可直接分析原始测序数据而无需基因型判定,但其输出的似然比(LR)统计量在法医实践中的解释存在根本性问题——该算法默认检验的零假设是"样本来源于参考数据库个体",这与法医鉴定中"样本来源于随机无关个体"的标准假设存在本质差异。

美国研究团队通过理论推导和计算机模拟发现,IBDGem在标准参考数据库规模下(如千人基因组计划数据),其LR值可能比传统法医LR高出多个数量级。在极端情况下(假设测序错误率为零),当观测reads与参考数据库所有个体均存在至少一个不一致位点时,算法会导致除零错误。研究强调这种统计偏差可能造成法庭证据强度的严重高估,并提出了改进方向:建议通过扩大参考数据库规模、开发新的统计算法来逼近标准法医假设。

关键技术包括:1)利用IBDGem v2.0.2进行LR计算;2)基于千人基因组计划的SNP数据进行模拟;3)比较LD模式与非LD模式下的计算结果差异;4)构建理论模型分析假设检验的数学本质。

【The IBDGem approach】
研究解析IBDGem算法的数学框架,揭示其LR计算公式P(D|I)/P(D|U)中U实际代表"样本来自参考数据库个体"而非传统法医假设中的"随机无关个体"。通过马尔可夫链建模证明,当参考数据库有限时,该算法会系统性地高估证据强度。

【Discussion】
研究表明IBDGem的LD模式虽能部分校正连锁不平衡(LD)影响,但仍无法解决根本性的假设检验偏差问题。建议未来研究应聚焦:1)构建超大规模参考数据库;2)开发能直接估计群体等位基因频率的新算法;3)建立测序错误率与LR计算敏感性的量化关系模型。

【研究意义】
该工作首次系统揭示低覆盖度测序法医工具存在的统计解释陷阱,为算法改进提供明确方向。通过厘清不同假设检验框架下的LR差异,推动法医基因组学从技术导向向证据解释标准化发展,对法庭科学证据评估体系具有重要规范作用。研究强调在采用新型分子技术时,必须同步验证其统计方法的法理适用性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号