一种基于临床血液参数、遗传算法和生成对抗网络（GAN）优化的新型、可解释且实时的登革热预测框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Artificial Intelligence》：A novel interpretable and real-time dengue prediction framework using clinical blood parameters with genetic and GAN-based optimization

【字体：大中小】 时间：2025年10月31日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　登革热预测框架结合遗传算法（GA）优化特征选择、生成对抗网络（GAN）处理数据不平衡，并采用可解释AI（XAI）方法提升临床决策透明度。决策树模型在测试集上达到99.49%准确率，训练和推理时间分别为0.0025秒和0.0013秒，支持实时临床应用。XAI分析确认WBC和血小板计数为关键预测因子，并通过Web应用实现快速风险评估。

　　随着全球范围内登革热疫情的持续上升，这一疾病已成为热带和亚热带地区的重要公共卫生问题。特别是在资源有限和偏远地区，传统的IgG/IgM检测方法往往存在延迟或实施不当的问题。同时，传统机器学习方法在可解释性和误分类率方面也存在不足，导致在临床决策中的可靠性受限。为了解决这些问题，我们提出了一种新颖的、可解释的、高效的机器学习框架，能够在接近实时的条件下运行。该框架结合了遗传算法（GA）和生成对抗网络（GAN）进行特征优化，以应对数据不平衡问题，并通过可解释AI（XAI）增强决策的可解释性。GA能够选择出最具预测性的血液学特征，从而提升模型的准确性和透明度；而GAN则通过生成合成数据来平衡类别分布，从而增强模型的泛化能力。优化后的决策树模型在测试中达到了99.49%的准确率，其训练和测试时间分别为0.0025秒和0.0013秒，远超当前最先进的方法。基于该模型开发的网络应用程序能够在不到0.6秒的延迟内实现实时风险预测，为临床实践提供了强有力的支持。通过使用LIME、SHAP、Morris敏感性分析、排列组合以及递归特征消除（RFE）等XAI技术，我们发现白细胞（WBC）计数、血小板计数以及血小板分布宽度（PDW）是关键预测指标。具体来说，低白细胞计数（<3,700 cells/μL）、血小板计数（<136,000 cells/μL）以及PDW（<23）是显著的登革热预测标志。我们的GA-GAN-XAI综合框架在准确性、可解释性和实时决策能力方面实现了重要突破，为登革热风险预测提供了一个准确、可靠且易于部署的解决方案。

登革热的全球流行情况表明，这一疾病正在以惊人的速度蔓延，尤其是在一些发展中国家。例如，孟加拉国在2023年记录了321,179例登革热病例和1,705例死亡，这标志着该国最致命的疫情爆发。这些数据突显了登革热对公共健康构成的严重威胁，尤其是在城市地区，如达卡，病例和死亡数都显著增加。到了2024年，孟加拉国再次出现超过93,000例病例和超过500例死亡，达卡依然是主要的死亡来源。在2024年的前九个月，共有32,082例病例和166例死亡，死亡率约为0.53%。这些数字表明，登革热的防控和预测需求日益增长，特别是在资源有限的地区，传统的诊断方法可能无法及时和准确地识别病例，从而影响患者的及时干预和治疗。

为了解决这些问题，我们需要一种更高效、更准确的预测框架。当前的研究表明，尽管已经有一些机器学习方法被用于登革热的检测，但这些方法往往存在诸多不足。例如，一些研究虽然取得了较高的准确率，但缺乏对模型决策过程的解释性，这使得临床医生难以信任和理解这些预测结果。此外，这些模型在实际应用中可能无法实时响应，从而影响其在紧急情况下的实用性。因此，开发一个既准确又可解释、同时具备实时处理能力的预测模型显得尤为重要。

本研究提出了一种基于临床血液参数的登革热风险预测框架，该框架以决策树为核心，结合了遗传算法（GA）进行特征选择，生成对抗网络（GAN）用于处理数据不平衡问题，并引入了可解释AI（XAI）以提升模型的透明度和可信度。GA能够有效筛选出最具预测性的特征，从而减少模型的复杂性并提高预测质量。GAN则通过生成合成数据来平衡类别分布，使模型在面对不平衡数据时能够保持较高的泛化能力。XAI技术如SHAP和LIME则为模型的预测提供了清晰的解释，使得医生能够更好地理解和信任AI的结论。这些方法的结合，不仅提升了模型的预测能力，还增强了其在临床实践中的应用价值。

在数据预处理方面，我们对原始数据进行了细致的处理，包括类别编码、缺失值处理、异常值处理以及数据标准化。通过K近邻（k-NN）算法填补缺失值，我们保留了患者数据中的局部相似性，确保了特征之间的关系不被破坏。同时，通过计算四分位数（IQR）来识别和处理异常值，使用Winsorization方法对数据进行调整，以减少异常值对模型性能的负面影响。数据标准化确保了所有特征的均值为0，标准差为1，这对于支持向量机（SVM）和K近邻（KNN）等对数据尺度敏感的模型尤为重要。

在特征选择过程中，GA被用来筛选出对登革热预测最有意义的特征。通过多代进化过程，GA能够找到最优的特征子集，从而提升模型的预测能力。我们发现，WBC计数、血小板计数和PDW是最重要的预测指标。这些特征在后续的XAI分析中也得到了一致的认可，进一步验证了它们的预测价值。通过使用SHAP和RFE等方法，我们评估了这些特征的转移性和普遍性，表明它们在不同数据集中的适用性。

在模型训练方面，我们采用了多种机器学习模型，包括支持向量机（SVM）、K近邻（KNN）、决策树（DT）和人工神经网络（ANN）。这些模型在不同方面展现出了各自的优劣，其中决策树因其较高的训练和测试准确率以及较低的计算成本，成为了我们的首选模型。决策树的准确率达到99.49%，其训练和测试时间分别为0.0025秒和0.0013秒，远低于其他模型。此外，我们还通过XAI技术对模型进行了评估，确保其预测结果的可解释性。通过LIME、SHAP、Morris敏感性分析和排列重要性等方法，我们发现WBC计数和血小板计数是模型中最关键的特征，而PDW虽然在GA中被选中，但在后续的敏感性分析中显示其对模型预测的影响较小。

为了验证模型的性能，我们进行了多种评估指标的分析，包括精确率（Precision）、召回率（Recall）、F1分数、混淆矩阵（Confusion Matrix）、AUC（Area Under the Curve）以及Cohen's Kappa和Brier Score。这些指标帮助我们全面了解模型在不同数据集上的表现，以及其在实际应用中的可靠性。在测试中，决策树模型展现了卓越的性能，其精确率和召回率均达到接近完美的水平，且仅有一例误分类，这表明其在临床应用中具有极高的可靠性。同时，AUC值接近1，进一步验证了模型在区分登革热和非登革热病例方面的能力。

在处理数据不平衡问题时，我们对比了GAN和SMOTE两种数据增强方法。结果表明，GAN在生成合成数据方面更具优势，能够更真实地反映实际患者的数据分布，从而提升模型的泛化能力。相比之下，SMOTE生成的合成数据可能过于简化，无法准确捕捉复杂的数据模式。通过使用GAN，我们确保了模型在训练过程中能够接触到均衡的数据，从而减少偏差并提升其在不同数据集上的表现。

在模型的可解释性方面，我们采用了多种方法进行分析，包括LIME、SHAP、Morris敏感性分析和排列重要性。这些方法帮助我们理解模型如何做出预测，以及哪些特征对预测结果产生了最大的影响。例如，LIME的局部解释显示，WBC计数和血小板计数是影响模型预测结果的关键因素，而PDW虽然在GA中被选中，但在实际分析中显示出较低的重要性。这种不一致表明，PDW可能在某些情况下与其它特征相互作用，从而影响模型的输出。因此，在特征选择过程中，我们需要综合考虑GA、SHAP和排列重要性等方法的结果，以确保模型的稳健性和实用性。

为了提升模型的可解释性，我们还进行了敏感性分析，评估每个特征对模型输出的影响。结果显示，WBC计数和血小板计数对模型的预测具有显著影响，而PDW的影响则相对较小。这表明，虽然PDW在某些情况下可能具有一定的预测价值，但在本研究的数据集中，它并不是关键的预测因子。因此，在未来的特征选择中，需要更加谨慎地评估每个特征的实际贡献。

为了实现模型的实时应用，我们开发了一个基于网络的预测应用程序。该应用程序允许用户输入关键的医疗参数，并在短时间内得到预测结果。使用Python和Gradio开发的该应用，具有快速部署、易用性和良好的模型集成能力。它被部署在Hugging Face Spaces上，确保了其可扩展性和可访问性。该应用程序的界面设计直观，使得不同层次的医疗专业人员能够轻松使用。通过测试，我们发现该系统平均在0.4到0.6秒内完成预测，这表明其在实际应用中具备实时处理的能力。

本研究还对比了其他相关研究，发现我们的方法在多个方面都具有显著优势。首先，我们的框架结合了GA、GAN和XAI技术，这在当前的研究中是较为新颖的组合。其次，我们的模型在准确率、可解释性和实时性方面均表现出色，为临床决策提供了强有力的支持。此外，我们通过严格的统计测试，如McNemar测试和配对t检验，验证了模型的性能，并确保其在不同数据集上的可靠性。这些测试结果表明，我们的模型在统计上与真实标签无显著差异，且其性能在不同数据集上保持稳定。

从临床应用的角度来看，我们的模型在资源有限和时间敏感的环境中具有显著优势。决策树模型的低计算成本和高准确率，使其能够在实时环境中有效运行。相比之下，人工神经网络（ANN）虽然在AUC方面表现出色，但其训练和测试时间较长，且缺乏固有的可解释性，这限制了其在实际应用中的可行性。因此，我们的模型在实际部署中更具优势，能够满足临床对快速、可靠和可解释预测的需求。

综上所述，本研究提出的GA-GAN-XAI框架在登革热风险预测方面取得了显著成果。通过综合运用多种技术，我们不仅提升了模型的准确率和可解释性，还确保了其在实际应用中的可行性。该模型能够在接近实时的条件下运行，为临床医生提供了可靠的决策支持，特别是在资源有限的地区。此外，该模型的可解释性有助于增强医生对AI预测的信任，从而提高其在临床实践中的接受度和应用效果。未来的研究可以进一步探索模型的泛化能力，尤其是在不同地理区域和不同患者群体中的表现。同时，可以考虑引入更多数据增强方法和优化策略，以提升模型的稳定性和适应性。通过这些改进，我们的模型有望在更广泛的公共卫生和临床实践中发挥更大的作用。

联系信箱：

粤ICP备09063491号

热点排行