MpoxNet:基于混合深度学习的猴痘诊断与风险识别创新模型及其在公共卫生监测中的应用

【字体: 时间:2025年09月21日 来源:International Journal of Cognitive Computing in Engineering CS13.8

编辑推荐:

  本研究针对猴痘诊断中图像数据主导而表格临床数据未充分探索的现状,提出了一种新型混合深度学习模型MpoxNet,该模型整合了长短期记忆网络(LSTM)和多层感知机(MLP),用于从症状驱动的表格数据中分类猴痘病例并识别相关风险因素(尤其HIV共感染)。研究通过对Kaggle公开数据集进行重采样处理以解决类别不平衡问题,并结合症状相关性分析优化特征表示。实验结果表明,MpoxNet在数据集D1上达到65.35%的准确率、65.04%的精确度和65.68%的召回率,在D2上更实现了87.50%的准确率、73.33%的精确度和100%的召回率,显著优于AdaBoost、XGBoost和随机森林等传统集成模型。该研究凸显了表格数据在猴痘诊断中的重要价值,为开发基于人工智能的症状筛查工具和增强公共卫生监测策略奠定了基础。

  

猴痘,一种曾经主要局限于中非和西非地区的人畜共患病毒性疾病,近年来在全球范围内爆发,引发了重大的公共卫生关注。与许多其他皮疹类疾病(如麻疹和水痘)不同,猴痘的特征包括显著的淋巴结病和炎症性皮肤病变,通常需要通过聚合酶链反应(PCR)检测来确认。然而,在资源有限的地区,PCR检测往往不可及,这使得实现及时准确的诊断变得尤为困难。早期检测对于防止人际传播至关重要,需要快速隔离患者并遵循世界卫生组织(WHO)的指南。

在此背景下,机器学习和人工智能技术展现出作为临床决策支持工具的潜力。它们能够利用流行病学、临床和基因组数据开发预测模型,以区分猴痘和表型相似的疾病。但是,现有研究主要集中在基于图像的诊断模型上,而表格临床数据(对症状驱动的筛查和流行病学分析至关重要)的潜力却 largely underexplored。此外,从表格数据开发稳健的诊断模型面临着样本量有限和数据高度异质性的挑战。

为了应对这些挑战,来自Jahangirnagar University的Tushar Deb Nath和Md. Golam Moazzam进行了一项创新研究,他们提出了MpoxNet——一种新型混合深度学习模型,该模型整合了长短期记忆网络(LSTM)和多层感知机(MLP),旨在提高猴痘病例的分类性能并识别相关风险因素,特别是关注HIV阳性个体。他们的研究成果发表在《International Journal of Cognitive Computing in Engineering》上,为利用表格临床数据进行猴痘诊断提供了新的思路和工具。

研究人员采用了几个关键技术方法来开展本研究。首先,他们从Kaggle平台获取了两个公开的猴痘数据集:D1("Monkey-Pox PATIENT Dataset")和D2("Monkeypox Virus" dataset),这些数据集包含的症状和临床特征(如直肠疼痛、咽痛、HIV感染等)被数值化编码以供机器学习算法使用。为解决类别不平衡这一核心挑战,研究应用了合成少数类过采样技术(SMOTE)进行数据增强,而非简单的随机过采样或欠采样。在模型架构上,创新的MpoxNet混合了LSTM层(256个单元)用于捕捉序列依赖和特征交互,以及MLP层(64和32个神经元)进行非线性分类,最终通过串联特征和Sigmoid激活函数输出二进制分类结果。模型训练采用随机梯度下降优化,以二进制交叉熵为损失函数,并加入了Dropout和批量归一化(Batch Normalization)层来防止过拟合和加速收敛。整个训练过程在Google Colaboratory平台上利用GPU加速完成,数据集按80%/20%的比例划分为训练集和测试集。

4.1. Experiment on D1

4.1.1. Dataset

D1数据集包含10个特征属性和25,000个实例。特征主要包括系统性疾病、直肠疼痛、咽痛、阴茎水肿、口腔病变、孤立性病变、扁桃体肿胀、HIV感染、性传播感染和猴痘状态。描述性统计显示,系统性疾病属性的取值范围为0到3,平均值为1.49,标准差为1.11;其他二进制变量分布近乎均匀。猴痘状态变量的平均值为0.64,表明数据集中阳性病例略多。相关性分析显示,HIV感染与猴痘之间的相关性最强(0.146),其次是直肠疼痛与猴痘(0.141)和性传播感染与猴痘(0.123)。主成分分析(PCA)被应用于增强特征可解释性和降低维度。

4.1.2. Results & discussions

在D1上的实验结果表明,提出的MpoxNet模型 consistently outperforms 传统的深度学习混合模型和机器学习分类器。MpoxNet实现了65.35%的准确率、65.04%的精确度、65.68%的召回率、0.65的F1分数和0.70的AUC(曲线下面积)。与表现次优的模型GRU(准确率61.74%,AUC 0.62)相比,性能提升分别为+3.61%的准确率和+0.08的AUC。其他模型(随机森林(RF)、MLP、LSTM)的表现则 clustered together,准确率在61.15%到61.74%之间,AUC在0.60到0.62之间。三元图分析表明MpoxNet最接近图表中心,证实了其卓越的整体分类能力。训练和验证损失曲线显示 minimal divergence,表明没有过拟合。AUC-ROC曲线和混淆矩阵进一步证实了MpoxNet在D1上具有最低的错误率和最可靠的判别性能。

4.2. Experiment on D2

4.2.1. Dataset

D2数据集规模较小,仅包含143个实例和9个特征属性,包括与猴痘的影响、出生国、年龄、性别、皮肤疾病症状、住院状态、隔离状态、旅行史和猴痘确认。描述性统计显示,约44.8%的条目对应状态1,21%为男性,平均症状评分为3.47(范围0-7),约63%的患者住院,47.6%被隔离,62.2%有旅行史,47.6%通过特定诊断方法确认。相关性分析显示特征间关联较弱。PCA同样用于识别重要特征。

4.2.2. Results & discussions

在D2上的性能提升更为显著。MpoxNet取得了87.50%的准确率、73.33%的精确度、100%的召回率、0.85的F1分数和0.97的AUC。这与D1上的结果相比,召回率提高了+34.32个百分点,AUC提高了+0.386。其性能优势相对于传统模型也大幅扩大,准确率领先第二好的MLP模型(81.38%准确率,0.75 AUC)达+6.12%,AUC领先+0.22。其他模型如AdaBoost、GRU、MLP和LSTM的AUC值在0.61到0.75之间,且 recall rates 较低(如LSTM为63.64%)。D2上AUC得分的更大分散性(0.61–0.97 vs D1的0.60–0.70)凸显了D2更好地区分模型能力的能力,进一步强调了MpoxNet的鲁棒性。训练和验证的准确率和损失曲线再次表明没有过拟合。AUC-ROC曲线显示MpoxNet的AUC为0.97,远高于MLP的0.92。混淆矩阵证实了其卓越的分类能力,具有平衡的真阳性和真阴性率。

研究表明,MpoxNet作为一种混合深度学习框架,通过整合LSTM和MLP,在从有限的、不平衡的表格临床数据中识别猴痘病例和风险因素方面表现出卓越的性能。其在两个独立数据集上的优异表现,特别是在识别所有阳性病例(D2上100%召回率)和卓越的区分能力(高AUC),突显了其解决医疗诊断中常见数据挑战的潜力。该模型对HIV共感染等风险因素的关注,使其不仅是一个分类工具,更是一个风险识别系统。

研究的结论强调,这项工作成功地解决了在猴痘诊断中探索表格临床数据的空白。MpoxNet的性能优势,尤其是相对于传统模型而言,展示了混合深度学习架构在处理异构临床数据方面的价值。其可解释性和可扩展性表明它有望集成到临床决策支持系统中,从而增强传染病早期检测和风险分层。

尽管取得了有希望的成果,但研究也存在一些局限性。相对较小和不平衡的数据集可能影响其发现到更大、更多样化人群的普遍性。此外,模型的 efficacy 需要通过外部数据集和在不同临床环境中的优化来进一步验证。

未来的研究方向包括:扩展数据集以提高模型普遍性;探索多模态数据集成(结合基因组和放射学特征)以增强预测鲁棒性;进行纵向研究以评估模型在实时临床决策支持管道中的性能。总之,这项研究证明了像MpoxNet这样的混合深度学习模型在推进传染病诊断和促进循证医疗决策方面的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号