基于模糊逻辑与机器学习融合的流行病学预测可解释性增强研究

《Scientific Reports》:Enhancing explainability in epidemiological predictions using fuzzy logic integrated with machine and deep learning algorithms

【字体: 时间:2025年10月17日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对流行病学数据不确定性处理不足的问题,提出了一种集成模糊逻辑与机器学习/深度学习的新方法。研究人员通过特征模糊化处理,对H1N1/季节性流感疫苗和COVID-19数据集进行分析,开发出模糊机器学习(FML)和模糊深度学习(FDL)算法。结果表明,该方法能有效捕捉数据不确定性,提供更可靠的预测结果,并在糖尿病和学生表现数据集中验证了其普适性,为流行病学数据分析提供了新视角。

  
在当今大数据时代,流行病学数据的分析精度直接关系到公共卫生决策的有效性。传统流行病学模型如SIR(Susceptible-Infectious-Recovered)模型虽然提供了疾病传播的基本框架,但在处理现实世界中复杂多变的数据时往往力不从心。数据中存在的大量不确定性因素——如个体行为差异、免疫力变化、社会交往模式等——常常被简化处理,导致预测结果与实际情况存在偏差。特别是在全球面临COVID-19大流行等公共卫生危机时,如何准确解读流行病学数据中的"灰色地带"成为亟待解决的科学难题。
流行病学数据本质上充满了不确定性和模糊性。以疫苗接种行为为例,一个人决定是否接种疫苗受到多种因素影响:年龄、职业、健康状况、对疾病的认知等,这些因素往往不是简单的"是"或"否",而是存在程度差异。传统机器学习方法虽然能处理复杂数据模式,但其"黑箱"特性使得决策过程缺乏透明度,而模糊逻辑的引入正好弥补了这一缺陷,为模型注入了人类推理的灵活性。
在这项发表于《Scientific Reports》的研究中,巴基斯坦工程技术大学的Ubaida Fatima和Rabia Khushal提出了一种创新方法,将模糊逻辑与机器学习和深度学习算法相结合,旨在增强流行病学预测的可解释性。研究团队认识到,单纯依赖传统数学模型或纯数据驱动方法都难以充分捕捉流行病学数据的本质特征,因此他们探索了一条融合之路。
研究团队采用的主要技术方法包括:支持向量机(SVM)、极限梯度提升(XGBoost)和人工神经网络(ANN)等经典机器学习算法,以及基于模糊逻辑的特征变换技术。研究使用了两个主要流行病学数据集:H1N1和季节性流感疫苗数据集(包含26,707个个体记录)和COVID-19数据集(包含16,873条每日记录),并通过在糖尿病预测和学生表现预测数据集上的验证,证明了方法的普适性。特征模糊化过程通过定义隶属函数将连续或分类变量转换为模糊集,从而更好地处理数据中的不确定性。
H1N1和季节性流感疫苗数据集分析
研究团队首先对H1N1和季节性流感疫苗数据集进行了深入分析。该数据集包含36个输入特征,记录了26,707个个体的疫苗接种情况。研究人员特别关注了四个关键特征:是否参加大型聚会、是否有慢性疾病、是否为医护人员以及年龄组别。通过数据可视化发现,50%的个体未接种任何疫苗,33%接种了H1N1或季节性疫苗中的一种,仅有17%同时接种了两种疫苗。
特征分析揭示了有趣模式:参加大型聚会的人群中,45%未接种疫苗,36%接种了任意一种疫苗,18%接种了两种疫苗;患有慢性疾病的人群中,相应比例为36%、40%和24%;医护人员中的接种率明显较高,仅31%未接种疫苗。年龄分析显示,老年人群体(65岁及以上)虽然感染风险最高,但疫苗接种率并不理想,30%未接种任何疫苗。
模糊逻辑在特征处理中的应用
研究的创新之处在于引入了模糊逻辑来处理特征不确定性。通过将年龄特征与其他三个特征(大型聚会参与、慢性疾病状况、医护人员身份)进行模糊化整合,研究人员构建了感染风险的隶属度函数。例如,年轻成年人且不参加大型聚会的个体被赋予"无风险"(隶属度0),而老年人且参加大型聚会的个体则被标记为"极高风险"(隶属度1)。
这种模糊化处理产生了四类风险等级:无风险(0)、低风险(0.25)、高风险(0.75)和极高风险(1)。分析发现,39%的个体属于高风险类别,其中仅19%接种了两种疫苗;11%属于极高风险类别,其中20%接种了两种疫苗。模糊化处理不仅减少了特征维度,还提供了对风险因素的更细致理解。
机器学习与深度学习算法性能
研究比较了多种算法在原始数据集和模糊化数据集上的性能。在H1N1疫苗数据上,支持向量机(SVM)在原始数据上的准确率为0.52,模糊化后提升至0.55;XGBoost在两种数据上都达到0.55的准确率;人工神经网络(ANN)在原始数据上准确率为0.56,模糊化后为0.55。尽管准确率提升不明显,但模糊化处理显著提高了模型的可解释性,使决策过程更加透明。
COVID-19数据集验证
为验证方法的普适性,研究团队将相同方法应用于COVID-19数据集。该数据集包含2020年1月至5月期间16,873条每日记录,重点关注死亡人数与病例数、月份和大陆的关系。数据显示,95%的记录死亡人数较低(少于50人),3%为中等(50-250人),2%为高等(超过250人)。
月份分析显示,温和月份(1-3月)与极端月份(4-5月)的死亡模式存在显著差异。在极端月份,85%的极高死亡人数记录集中于此。大陆分析表明,72%的极高死亡病例发生在欧洲。通过将月份与病例数进行模糊化整合,研究团队成功构建了疾病传播风险的隶属度函数,为不同时空条件下的风险等级评估提供了量化工具。
多领域验证
为进一步验证方法的鲁棒性,研究团队还将提出的模糊机器学习逻辑和模糊深度学习逻辑应用于糖尿病预测数据集和学生表现预测数据集。在糖尿病预测中,XGBoost在模糊化数据集上的准确率从0.63显著提升至0.99;在学生表现预测中,所有算法在模糊化前后均保持0.99的高准确率,同时计算时间得到优化。这些结果证明了该方法在不同领域的适用性。
研究结论与意义
本研究通过将模糊逻辑与机器学习和深度学习相结合,为流行病学预测提供了一种增强可解释性的新范式。传统模型往往忽视数据中的不确定性,而纯数据驱动方法又缺乏透明度,本文的融合方法正好弥补了这两方面的不足。
研究的核心贡献在于开发了一套系统的特征模糊化方法,通过定义适当的隶属函数,将流行病学中的关键风险因素(如年龄、职业、行为特征)转换为模糊集,从而更精细地捕捉现实世界中的连续变化和不确定性。这种方法不仅提高了模型的解释性,还通过特征融合减少了数据维度,优化了计算效率。
在公共卫生实践方面,该研究为精准防控提供了新思路。通过识别不同风险等级的人群特征,公共卫生决策者可以更有针对性地制定干预策略,特别是在疫苗资源有限的情况下,优先保护高风险人群。同时,方法的多领域验证结果表明,这种基于模糊逻辑的数据处理框架具有广泛的适用性,可扩展至金融、教育等其他存在不确定性的预测场景。
研究的局限性主要在于对领域知识的依赖——有效的模糊化需要研究人员对流行病学有深入理解,以正确定义隶属函数和模糊规则。未来工作可探索自动化学习模糊规则的方法,降低对专家知识的依赖。此外,将提出的框架与传统的SIR等动力学模型结合,可能开辟一条数据驱动与机制模型融合的新途径。
总之,这项研究为处理流行病学数据中的不确定性提供了方法论创新,通过模糊逻辑与人工智能技术的有机结合,在预测准确性与决策可解释性之间找到了平衡点,为未来公共卫生智能决策支持系统的开发奠定了重要基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号