一种基于临床血液参数、遗传算法和生成对抗网络(GAN)优化的新型、可解释且实时的登革热预测框架
《Frontiers in Artificial Intelligence》:A novel interpretable and real-time dengue prediction framework using clinical blood parameters with genetic and GAN-based optimization
【字体:
大
中
小
】
时间:2025年10月31日
来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
登革热预测框架结合遗传算法(GA)优化特征选择、生成对抗网络(GAN)处理数据不平衡,并采用可解释AI(XAI)方法提升临床决策透明度。决策树模型在测试集上达到99.49%准确率,训练和推理时间分别为0.0025秒和0.0013秒,支持实时临床应用。XAI分析确认WBC和血小板计数为关键预测因子,并通过Web应用实现快速风险评估。
随着全球范围内登革热疫情的持续上升,这一疾病已成为热带和亚热带地区的重要公共卫生问题。特别是在资源有限和偏远地区,传统的IgG/IgM检测方法往往存在延迟或实施不当的问题。同时,传统机器学习方法在可解释性和误分类率方面也存在不足,导致在临床决策中的可靠性受限。为了解决这些问题,我们提出了一种新颖的、可解释的、高效的机器学习框架,能够在接近实时的条件下运行。该框架结合了遗传算法(GA)和生成对抗网络(GAN)进行特征优化,以应对数据不平衡问题,并通过可解释AI(XAI)增强决策的可解释性。GA能够选择出最具预测性的血液学特征,从而提升模型的准确性和透明度;而GAN则通过生成合成数据来平衡类别分布,从而增强模型的泛化能力。优化后的决策树模型在测试中达到了99.49%的准确率,其训练和测试时间分别为0.0025秒和0.0013秒,远超当前最先进的方法。基于该模型开发的网络应用程序能够在不到0.6秒的延迟内实现实时风险预测,为临床实践提供了强有力的支持。通过使用LIME、SHAP、Morris敏感性分析、排列组合以及递归特征消除(RFE)等XAI技术,我们发现白细胞(WBC)计数、血小板计数以及血小板分布宽度(PDW)是关键预测指标。具体来说,低白细胞计数(<3,700 cells/μL)、血小板计数(<136,000 cells/μL)以及PDW(<23)是显著的登革热预测标志。我们的GA-GAN-XAI综合框架在准确性、可解释性和实时决策能力方面实现了重要突破,为登革热风险预测提供了一个准确、可靠且易于部署的解决方案。
登革热的全球流行情况表明,这一疾病正在以惊人的速度蔓延,尤其是在一些发展中国家。例如,孟加拉国在2023年记录了321,179例登革热病例和1,705例死亡,这标志着该国最致命的疫情爆发。这些数据突显了登革热对公共健康构成的严重威胁,尤其是在城市地区,如达卡,病例和死亡数都显著增加。到了2024年,孟加拉国再次出现超过93,000例病例和超过500例死亡,达卡依然是主要的死亡来源。在2024年的前九个月,共有32,082例病例和166例死亡,死亡率约为0.53%。这些数字表明,登革热的防控和预测需求日益增长,特别是在资源有限的地区,传统的诊断方法可能无法及时和准确地识别病例,从而影响患者的及时干预和治疗。
为了解决这些问题,我们需要一种更高效、更准确的预测框架。当前的研究表明,尽管已经有一些机器学习方法被用于登革热的检测,但这些方法往往存在诸多不足。例如,一些研究虽然取得了较高的准确率,但缺乏对模型决策过程的解释性,这使得临床医生难以信任和理解这些预测结果。此外,这些模型在实际应用中可能无法实时响应,从而影响其在紧急情况下的实用性。因此,开发一个既准确又可解释、同时具备实时处理能力的预测模型显得尤为重要。
本研究提出了一种基于临床血液参数的登革热风险预测框架,该框架以决策树为核心,结合了遗传算法(GA)进行特征选择,生成对抗网络(GAN)用于处理数据不平衡问题,并引入了可解释AI(XAI)以提升模型的透明度和可信度。GA能够有效筛选出最具预测性的特征,从而减少模型的复杂性并提高预测质量。GAN则通过生成合成数据来平衡类别分布,使模型在面对不平衡数据时能够保持较高的泛化能力。XAI技术如SHAP和LIME则为模型的预测提供了清晰的解释,使得医生能够更好地理解和信任AI的结论。这些方法的结合,不仅提升了模型的预测能力,还增强了其在临床实践中的应用价值。
在数据预处理方面,我们对原始数据进行了细致的处理,包括类别编码、缺失值处理、异常值处理以及数据标准化。通过K近邻(k-NN)算法填补缺失值,我们保留了患者数据中的局部相似性,确保了特征之间的关系不被破坏。同时,通过计算四分位数(IQR)来识别和处理异常值,使用Winsorization方法对数据进行调整,以减少异常值对模型性能的负面影响。数据标准化确保了所有特征的均值为0,标准差为1,这对于支持向量机(SVM)和K近邻(KNN)等对数据尺度敏感的模型尤为重要。
在特征选择过程中,GA被用来筛选出对登革热预测最有意义的特征。通过多代进化过程,GA能够找到最优的特征子集,从而提升模型的预测能力。我们发现,WBC计数、血小板计数和PDW是最重要的预测指标。这些特征在后续的XAI分析中也得到了一致的认可,进一步验证了它们的预测价值。通过使用SHAP和RFE等方法,我们评估了这些特征的转移性和普遍性,表明它们在不同数据集中的适用性。
在模型训练方面,我们采用了多种机器学习模型,包括支持向量机(SVM)、K近邻(KNN)、决策树(DT)和人工神经网络(ANN)。这些模型在不同方面展现出了各自的优劣,其中决策树因其较高的训练和测试准确率以及较低的计算成本,成为了我们的首选模型。决策树的准确率达到99.49%,其训练和测试时间分别为0.0025秒和0.0013秒,远低于其他模型。此外,我们还通过XAI技术对模型进行了评估,确保其预测结果的可解释性。通过LIME、SHAP、Morris敏感性分析和排列重要性等方法,我们发现WBC计数和血小板计数是模型中最关键的特征,而PDW虽然在GA中被选中,但在后续的敏感性分析中显示其对模型预测的影响较小。
为了验证模型的性能,我们进行了多种评估指标的分析,包括精确率(Precision)、召回率(Recall)、F1分数、混淆矩阵(Confusion Matrix)、AUC(Area Under the Curve)以及Cohen's Kappa和Brier Score。这些指标帮助我们全面了解模型在不同数据集上的表现,以及其在实际应用中的可靠性。在测试中,决策树模型展现了卓越的性能,其精确率和召回率均达到接近完美的水平,且仅有一例误分类,这表明其在临床应用中具有极高的可靠性。同时,AUC值接近1,进一步验证了模型在区分登革热和非登革热病例方面的能力。
在处理数据不平衡问题时,我们对比了GAN和SMOTE两种数据增强方法。结果表明,GAN在生成合成数据方面更具优势,能够更真实地反映实际患者的数据分布,从而提升模型的泛化能力。相比之下,SMOTE生成的合成数据可能过于简化,无法准确捕捉复杂的数据模式。通过使用GAN,我们确保了模型在训练过程中能够接触到均衡的数据,从而减少偏差并提升其在不同数据集上的表现。
在模型的可解释性方面,我们采用了多种方法进行分析,包括LIME、SHAP、Morris敏感性分析和排列重要性。这些方法帮助我们理解模型如何做出预测,以及哪些特征对预测结果产生了最大的影响。例如,LIME的局部解释显示,WBC计数和血小板计数是影响模型预测结果的关键因素,而PDW虽然在GA中被选中,但在实际分析中显示出较低的重要性。这种不一致表明,PDW可能在某些情况下与其它特征相互作用,从而影响模型的输出。因此,在特征选择过程中,我们需要综合考虑GA、SHAP和排列重要性等方法的结果,以确保模型的稳健性和实用性。
为了提升模型的可解释性,我们还进行了敏感性分析,评估每个特征对模型输出的影响。结果显示,WBC计数和血小板计数对模型的预测具有显著影响,而PDW的影响则相对较小。这表明,虽然PDW在某些情况下可能具有一定的预测价值,但在本研究的数据集中,它并不是关键的预测因子。因此,在未来的特征选择中,需要更加谨慎地评估每个特征的实际贡献。
为了实现模型的实时应用,我们开发了一个基于网络的预测应用程序。该应用程序允许用户输入关键的医疗参数,并在短时间内得到预测结果。使用Python和Gradio开发的该应用,具有快速部署、易用性和良好的模型集成能力。它被部署在Hugging Face Spaces上,确保了其可扩展性和可访问性。该应用程序的界面设计直观,使得不同层次的医疗专业人员能够轻松使用。通过测试,我们发现该系统平均在0.4到0.6秒内完成预测,这表明其在实际应用中具备实时处理的能力。
本研究还对比了其他相关研究,发现我们的方法在多个方面都具有显著优势。首先,我们的框架结合了GA、GAN和XAI技术,这在当前的研究中是较为新颖的组合。其次,我们的模型在准确率、可解释性和实时性方面均表现出色,为临床决策提供了强有力的支持。此外,我们通过严格的统计测试,如McNemar测试和配对t检验,验证了模型的性能,并确保其在不同数据集上的可靠性。这些测试结果表明,我们的模型在统计上与真实标签无显著差异,且其性能在不同数据集上保持稳定。
从临床应用的角度来看,我们的模型在资源有限和时间敏感的环境中具有显著优势。决策树模型的低计算成本和高准确率,使其能够在实时环境中有效运行。相比之下,人工神经网络(ANN)虽然在AUC方面表现出色,但其训练和测试时间较长,且缺乏固有的可解释性,这限制了其在实际应用中的可行性。因此,我们的模型在实际部署中更具优势,能够满足临床对快速、可靠和可解释预测的需求。
综上所述,本研究提出的GA-GAN-XAI框架在登革热风险预测方面取得了显著成果。通过综合运用多种技术,我们不仅提升了模型的准确率和可解释性,还确保了其在实际应用中的可行性。该模型能够在接近实时的条件下运行,为临床医生提供了可靠的决策支持,特别是在资源有限的地区。此外,该模型的可解释性有助于增强医生对AI预测的信任,从而提高其在临床实践中的接受度和应用效果。未来的研究可以进一步探索模型的泛化能力,尤其是在不同地理区域和不同患者群体中的表现。同时,可以考虑引入更多数据增强方法和优化策略,以提升模型的稳定性和适应性。通过这些改进,我们的模型有望在更广泛的公共卫生和临床实践中发挥更大的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号