基于伪缺失数据框架预测多房棘球绦虫人畜共患宿主的生态建模研究

【字体: 时间:2025年06月25日 来源:Ecological Informatics 5.9

编辑推荐:

  推荐:本研究针对人畜共患寄生虫宿主范围预测的数据偏差难题,创新性提出基于研究偏倚定义伪缺失(PA)的建模框架,以多房棘球绦虫(Echinococcus multilocularis)为案例,整合生态形态特征与GLM/PU-L算法,预测出149种潜在中间宿主啮齿类,揭示中欧、北美西部及中亚为高风险区,为寄生虫传播风险评估提供新范式。

  

在野生动物与人类健康交织的前沿领域,多房棘球绦虫(Echinococcus multilocularis)引发的泡型包虫病(Alveolar echinococcosis)每年造成全球约66.6万伤残调整生命年(DALYs)的负担。这种寄生虫在狐狸等食肉动物(终宿主)与啮齿类(中间宿主)间循环传播,其分布范围正随气候变化快速扩张。然而,当前对中间宿主的认知存在严重偏差——文献中感染记录远多于阴性报告,且超40%的已知宿主集中在仓鼠科(Cricetidae)与鼠科(Muridae),这种"数据黑洞"极大阻碍了精准风险评估模型的构建。

为破解这一难题,研究人员开展了一项创新性研究。他们首先系统检索了1497篇文献,筛选出85种有明确感染状态的啮齿类(29种可育感染/41种易感/15种抵抗),随后建立包含体重、寿命、扩散能力等8个生态形态特征的数据库。针对数据偏倚问题,研究团队创造性地采用"研究努力度"指标定义伪缺失物种(PA),通过100次重复抽样构建平衡数据集。在算法选择上,比较了广义线性模型(GLM)与存在-未标记学习(PU-L)两种方法,最终GLM以AUC=0.952的优异表现胜出。

关键技术包括:1)基于PRISMA标准的系统文献综述确定宿主感染状态;2)利用COMBINE和PanTHERIA数据库获取物种特征数据;3)采用Rphylopars包进行系统发育缺失值填补;4)基于采样偏倚的伪缺失定义方法;5)十折交叉验证比较GLM与PU-L算法性能;6)利用IUCN物种分布数据构建25 km2网格的宿主丰富度地图。

研究结果揭示:

  1. 模型性能验证
    GLM在AUC、TSS和F1分数(0.952/0.857/0.897)上显著优于PU-L,温度(β=-1.486)与分布范围大小(β=0.698)是最强预测因子。

  2. 系统发育分布格局
    预测显示仓鼠科的田鼠属(Microtus)含32个潜在宿主,高山鼾属(Alticola)所有12个物种均被预测为易感。整体预测宿主比例达25.4%,提示当前认知严重低估。

  3. 地理风险图谱
    中欧、北美西部及中亚为宿主丰富度热点区,而青藏高原虽物种数少但宿主比例(55%)极高,印证其已知的高传播风险。

  4. 稀释效应新认知
    北部高纬度地区宿主比例显著升高,而中纬度地区丰富度高但比例低,暗示"稀释效应"可能在此类区域调节传播动态。

这项研究首次将物种分布模型(SDM)中的伪缺失技术应用于宿主-寄生虫系统,其创新框架可推广至其他复杂生活史的寄生虫研究。预测发现的Prometheomys schaposchnikowi等10种高概率宿主(预测值>0.874)为未来监测指明方向。更重要的是,研究证实中间宿主群落特征(而非仅气候因子)是驱动寄生虫分布的关键,这为构建基于组分的分布模型(Component-based SDM)奠定基础。在实践层面,成果可直接应用于北美新传入欧洲株的防控,并为评估气候变化下寄生虫向北扩张的风险提供科学依据。该研究发表于《Ecological Informatics》,其方法论突破对缓解"埃尔顿缺口"(Eltonian shortfall,物种互作知识缺失)具有示范意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号