通过建模数字PCR的统计特征改进环境监测中报告浓度的推断

《ACS ES&T Water》:Improving Inference from Reported Concentrations in Environmental Surveillance by Modeling the Statistical Features of Digital PCR

【字体: 时间:2026年06月11日 来源:ACS ES&T Water 4.3

编辑推荐:

  数字聚合酶链式反应(digital PCR, dPCR)是一种用于环境样本中基因靶标定量的强大技术,应用范围从物种监测到废水流行病学。尽管存在分析dPCR测量的精确统计模型,但这些模型需要确切的检测参数以及阳性分区和总PCR分区的数量。然而,在实践中,许多环境

  
数字聚合酶链式反应(digital PCR, dPCR)是一种用于环境样本中基因靶标定量的强大技术,应用范围从物种监测到废水流行病学。尽管存在分析dPCR测量的精确统计模型,但这些模型需要确切的检测参数以及阳性分区和总PCR分区的数量。然而,在实践中,许多环境研究和监测项目仅分析浓度估计值,假设测量值呈正态分布或对数正态分布。这种假设忽略了PCR检测的关键统计特征,包括浓度依赖的测量噪声和非检测,导致有偏的环境估计。在这项工作中,研究人员提出了一个贝叶斯模型(Bayesian model),该模型具有dPCR特异性似然函数(dPCR-specific likelihood),可以直接拟合到报告的浓度,同时通过可解释的先验(interpretable priors)纳入检测参数的不确定性。通过使用海水中游离eDNA(free-eDNA)衰变和废水中病原体传播的真实世界案例研究,研究人员展示了该方法产生的估计值与具有分区计数的完全信息模型相似,同时避免了正态或对数正态近似带来的偏差。这使得即使分区计数数据和检测参数不可用,也能从dPCR测量中进行准确推断。该方法在用于回归分析的R包“dPCRfit”和用于废水监测的R包“EpiSewer”中实现。
**论文解读文章**

数字聚合酶链式反应(digital PCR, dPCR)因其不依赖标准曲线、鲁棒性强、重复性好及多通路潜力,已成为环境科学和工程中基因靶标定量的重要工具,广泛应用于物种监测(如环境DNA, eDNA)和废水流行病学(wastewater-based epidemiology, WBE)。然而,当统计建模dPCR测量数据时,精确的统计模型(如二项式模型)需要输入阳性分区数、总分区数、分区体积、稀释因子等完整检测参数。但在实际环境研究和监测项目中(例如各国公共废水仪表板发布的数据),通常仅报告通过最大似然估计得到的浓度值(如基因拷贝数/mL),而忽略底层分区计数和精确检测参数。许多研究者直接分析这些报告浓度,假设其服从正态或对数正态分布。这种简化忽略了dPCR的重要统计特征:测量噪声随浓度变化(低浓度时相对误差指数级增大)以及非检测(nondetects)现象(即使靶标存在也可能得到零值)。因此,基于正态或对数正态的模型会产生有偏的推断,特别是在小样本和低浓度场景下(如从少数采样点估算物种丰度或从周频废水样本追踪病原体动态)。为解决这一问题,研究人员开发了一种贝叶斯统计模型,通过一个dPCR特异性连续似然函数直接拟合报告浓度,并利用可解释的先验纳入检测参数的不确定性。该研究以两个真实案例——海水游离eDNA衰变和废水流感病毒传播——验证了方法有效性,表明其估计结果与使用完整分区计数的二项式模型高度一致,同时避免了正态或对数正态近似的偏差。研究成果发表于《ACS ES》(指ACS ES&T Water或类似期刊?根据原文,此处按指示写为《ACS ES》)。该方法已集成于R包“dPCRfit”(回归分析)和“EpiSewer”(废水监测)。

为开展研究,作者主要采用了以下关键方法:(1)基于dPCR分区统计学,推导了报告浓度的变异系数(coefficient of variation, CV)和零检测概率(probability of nondetection)的解析表达式,考虑了PCR前噪声(pre-PCR noise)和分区变异;(2)构建零膨胀Gamma分布(zero-augmented Gamma分布)作为连续似然函数,其参数由CV和零概率确定;(3)在贝叶斯框架下,通过可解释先验(如总分区数、转换因子、PCR前变异系数)整合检测参数不确定性,使用哈密顿蒙特卡洛(Hamiltonian Monte Carlo, HMC)进行后验采样;(4)将似然函数嵌入广义线性模型(GLM)和废水动力学模型,分别用于eDNA衰变和废水监测分析。案例中使用了Scriver等人(26)的实验室缸实验数据(Bugula neritina游离eDNA衰变)以及瑞士苏黎世市政污水处理厂2022-2025年流感季节的重复dPCR测量数据(Influenza A病毒)。

**研究结果**

**3.1 验证**
通过模拟数据,研究人员验证了理论预测的CV和零检测概率与经验估计高度吻合:CV和零概率在中等浓度时接近常数,但随浓度趋近零呈指数增长;极高浓度(接近饱和)时CV亦增加。CV在不同PCR前噪声分布(对数正态或Gamma)下相似,而零概率在Gamma噪声下显著更高。对于连续似然函数的近似偏差,数值积分显示,在低浓度时因离散浓度近似为连续分布导致轻微下偏(典型偏差约-0.13 gc/mL,相对误差≤ -1%),但此偏差远小于有限样本下的后验不确定性。在模拟回归分析中(10个样本,浓度服从对数线性关系),使用dPCR特异性似然函数正确恢复了斜率系数,而正态似然产生噪声估计且可信区间覆盖不足,对数正态似然在负系数(高非检测概率)时存在上偏。

**3.2 应用于eDNA生物监测**
对Scriver等人(26)的游离eDNA衰变实验(COI基因,0-72小时)进行分层分析,研究人员使用dPCR特异性似然拟合GLM,估计各缸(低、中、高初始生物量)的eDNA半衰期分别为20.15小时(95% CrI: 10.60-62.51)、13.40小时(9.17-23.32)和15.51小时(10.71-30.59),与原作者合并分析得到的16.86小时一致,且与使用精确分区计数二项式似然的估计值(15.60、14.89、15.99小时)高度吻合。相比之下,正态和对数正态似然估计的半衰期在不同缸间不一致且不确定性更大,预测浓度偏离二项式模型。

**3.3 应用于废水流行病学**
将dPCR特异性似然函数与废水模型(EpiSewer)结合,分析瑞士苏黎世污水处理厂的甲型流感病毒重复dPCR数据(2022/23季),研究人员估计了病毒载量和有效再生数Rt。结果显示:使用dPCR似然(宽先验)得到的病毒载量和Rt估计值与使用精确分区计数的二项式模型几乎一致(中位数病毒载量平均绝对百分比误差MAPE=1.82%,中位数Rt的MAPE=0.41%),且后验预测分布在低浓度和高浓度下均校准良好(80% CrI覆盖率83.33%)。相反,正态似然导致Rt估计在波浪开始时不确且峰值处高度波动(MAPE=16.67%),对数正态似然在低浓度时可信区间过窄,高浓度时过宽,两者均偏离真实值。

**讨论与结论**
讨论部分指出:该模型在检测参数未知时,通过贝叶斯先验整合不确定性,能准确从报告浓度推断浓度与协变量关系,而正态/对数正态模型在低浓度时产生有偏估计。推荐直接建模未调整的浓度观测值,而非通过流量或粪便生物标志物归一化后的指标。此外,应采用障碍模型而非删失处理零测量值,以避免固定阈值导致的偏差。模型局限性包括:PCR前噪声分布选择(Gamma和对数正态表现不同);CV渐近假设(不适用于极度饱和);未考虑分区体积变异和假阳性概率;连续似然在低浓度时存在微小偏倚。结论部分翻译如下:研究人员开发了dPCR特异性似然函数,并在R包“dPCRfit”(42)和“EpiSewer”(43)中实现,分别用于回归分析和废水监测。当完整分区计数和检测参数已知时,这些包也支持直接拟合阳性分区数。但在信息不可用或难以获取时,该似然函数仅依靠报告浓度即可实现可靠推断。本研究聚焦于数字PCR,类似的统计关系也可应用于定量PCR。总体而言,准确建模实验室和测量过程将改进环境监测,并通过将测量噪声与环境变异分离而加深对环境变异性的理解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号