通过合成社区进行基准测试,为利用Hi-C邻近性关联技术推断病毒与宿主之间的关系提供了基础数据

《PLOS Biology》:Benchmarking with synthetic communities provides a baseline for virus-host inferences from Hi-C proximity linking

【字体: 时间:2025年11月21日 来源:PLOS Biology 7.2

编辑推荐:

  病毒宿主关系推断的Hi-C技术优化与验证。本研究通过合成社区实验和自然土壤样本分析,评估了Hi-C技术在病毒宿主关系推断中的准确性。优化了Z-score过滤方法,确定最低检测限为10^5 PFU/mL,并发现该技术在不同生态系统中具有高特异性(>99%)和中等灵敏度(62%-100%),同时提出标准化方法和应用建议。

  病毒-宿主相互作用在生态系统的运作中起着关键作用,特别是在微生物群落中。随着研究的深入,科学家们发现病毒在调节微生物活动和进化方面具有重要作用,例如通过改变宿主的代谢活动形成新的“病毒细胞”,诱导裂解从而控制微生物种群动态,以及促进水平基因转移从而影响长期的进化轨迹。然而,大多数环境中的病毒仍然无法与其宿主建立明确的联系,这限制了我们对病毒在生态系统中功能的全面理解。为了解决这一问题,Hi-C(高通量染色体构象捕获)技术被引入,以实验性地推断病毒与宿主之间的相互作用。Hi-C利用邻近连接技术,通过甲醛交联,捕捉物理上共定位的DNA分子,并通过限制性酶切、重连接和高通量测序来分析这些连接,从而揭示病毒-宿主之间的潜在关系。

尽管Hi-C技术在多个研究中被应用,但其准确性尚未得到充分验证。为了评估Hi-C在病毒-宿主链接方面的性能,研究人员设计了一个合成社区(SynCom),其中包括四种海洋细菌菌株和九种具有已知相互作用的噬菌体。他们通过实验确定了噬菌体与宿主之间的吸附效率,并利用这些数据作为基准,以评估Hi-C方法的可靠性。在SynCom实验中,标准的Hi-C样本处理和分析显示,其在标准化接触评分方面的表现不佳,仅达到26%的特异性,但100%的敏感性,且错误匹配可能达到科级水平。然而,通过引入Z值过滤(Z ≥ 0.5),特异性显著提高至99%,尽管敏感性下降至62%。这表明,Z值过滤可以在不牺牲过多真阳性的情况下显著减少假阳性。此外,研究还发现,当噬菌体浓度低于10^5 PFU/mL时,Hi-C方法的可重复性较差,这表明Hi-C方法在低浓度情况下的检测能力有限。

在自然土壤样本中,研究人员进一步应用了优化的生物信息学协议,比较了通过Hi-C邻近连接测序推断出的病毒-宿主链接与基于同源性分析和机器学习的预测结果之间的吻合程度。在应用Z值过滤之前,病毒-宿主链接在门到科的水平上具有较高的一致性(72%),但在属和种的水平上则较低(43%和15%)。Z值过滤虽然在属和种水平上提供了适度的改进(48%和18%),但同时也大幅降低了敏感性,仅有34%的预测被保留下来。尽管如此,Hi-C方法仍然揭示了79个属级一致的病毒-宿主链接,以及293个仅通过Hi-C发现的新链接,这为已经广泛研究的、对气候有重要影响的土壤生态系统提供了许多新的病毒-宿主相互作用的研究方向。

在进一步评估Hi-C方法的检测极限时,研究人员构建了两个新的SynCom,SynCom-2和SynCom-3,其中噬菌体浓度从10^3到10^6 PFU/mL不等,而宿主浓度保持不变。结果表明,只有当噬菌体浓度达到10^6 PFU/mL时,Hi-C方法才能检测到有效的链接,而在更低浓度下,检测效果显著下降。这说明Hi-C方法在实际应用中可能受限于样本中病毒的丰度,特别是在自然环境中,病毒的浓度通常远低于实验室条件下的水平。此外,研究人员还发现,即使在这些较低浓度下,病毒-宿主链接的特异性仍然很高(100%),但敏感性却大幅下降,这进一步强调了Hi-C方法在检测低丰度病毒时的局限性。

在自然土壤样本中,研究人员还评估了Hi-C方法与基于计算的预测工具之间的吻合度。例如,iPHoP和VirMatcher是两种常用的计算工具,它们利用不同的概率模型来整合序列特征,以生成宿主预测分数。在这些工具中,iPHoP的预测能力较强,能够为1,640个病毒操作分类单元(vOTUs)提供高置信度的宿主预测(得分≥90),而VirMatcher则仅能为412个vOTUs提供可靠预测(最终得分≥3)。其中,有12%的iPHoP预测和4%的VirMatcher预测与Hi-C数据一致。然而,当应用Z值过滤后,这些吻合度在属和种的水平上进一步提高,分别为48%和18%。这表明,尽管Hi-C方法在高置信度的预测中表现良好,但在更精细的分类水平上仍存在一定的偏差。

此外,研究人员还发现,Hi-C方法与计算工具之间的差异可能源于数据库的偏差。例如,iPHoP的训练数据主要集中在已知的、研究较为充分的分类单元上,这可能限制了其在预测新分类单元或未充分研究的病毒时的能力。相比之下,Hi-C方法能够捕捉到更广泛的病毒-宿主链接,包括那些在计算工具中未被识别的链接。因此,为了提高Hi-C方法的准确性,建议在应用该方法时,结合计算工具的结果进行综合分析,并在可能的情况下,使用基于SynCom的基准实验来优化过滤参数。

在实际应用中,Hi-C方法的局限性可能包括样本保存条件对结果的影响。例如,在冷冻-解冻过程中,某些细菌菌株的细胞回收率较低,这可能导致Hi-C方法无法准确捕捉到它们与噬菌体之间的相互作用。此外,冻存剂如DMSO、甘油和甜菜碱虽然能够提高细胞回收率,但并未显著改善Hi-C方法的性能。这表明,样本保存条件可能对Hi-C方法的准确性产生影响,尤其是在处理自然样本时。因此,研究建议在实际应用中,尽量使用新鲜样本,并在无法使用新鲜样本时,选择适当的冻存剂以减少对病毒-宿主链接的干扰。

综上所述,Hi-C方法在病毒-宿主链接推断中具有广阔的应用前景,但其准确性和可靠性仍需进一步优化。研究建议在使用Hi-C方法时,结合计算工具的结果进行验证,并根据具体的样本类型和研究目标调整过滤参数。此外,研究人员还提出了一些建议,以支持Hi-C方法的负责任应用,包括建立标准化的生物信息学分析流程、提供透明的局限性讨论以及创建一个集中化的数据库,以促进方法的改进和推广。通过这些努力,Hi-C方法有望成为研究病毒-宿主相互作用的重要工具,从而推动病毒生态学和微生物组科学的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号