经过PSO优化的TabTransformer架构结合特征工程,提升了宫颈癌风险预测的准确性

《Expert Systems with Applications》:PSO-optimized TabTransformer architecture with feature engineering for enhanced cervical cancer risk prediction

【字体: 时间:2025年11月24日 来源:Expert Systems with Applications 7.5

编辑推荐:

  宫颈癌风险预测提出整合领域知识特征工程、粒子群优化和Transformer模型的新框架,通过临床相关特征提取、PSO优化特征选择、SMOTE结合focal loss处理类别不平衡,并利用SHAP/LIME实现可解释性,在UCI数据集上达到95.3%准确率和94.8% F1分数,显著优于传统方法。

  宫颈癌仍然是全球公共卫生领域面临的重要挑战之一,每年导致超过35万例可预防的死亡(根据世界卫生组织的估计)。尽管现代医学技术在筛查和诊断方面取得了显著进展,但目前的诊断方法如巴氏涂片检查仍存在高达30%-50%的假阴性率,而基于液体的细胞学方法也仍无法检测出20%-30%的高级别病变。这些诊断局限性凸显了开发更准确、更早识别高风险人群的风险预测系统的紧迫性。因此,如何提高宫颈癌风险预测的准确性,同时确保模型的临床可解释性,成为当前医学人工智能研究的重要方向。

本文提出了一种新颖的混合框架,用于宫颈癌风险的早期预测。该框架融合了领域知识驱动的特征工程、进化优化算法以及基于Transformer的建模方法,旨在解决传统机器学习模型在处理复杂非线性关系时的不足。具体而言,我们引入了四个关键创新点:首先,通过流行病学关系推导出具有临床意义的特征,例如“性生活持续时间”和“性传播疾病诊断率”;其次,采用针对Transformer网络优化的粒子群优化(PSO)方法进行架构感知的特征选择;第三,结合合成少数类过采样技术(SMOTE)和焦点损失(Focal Loss)的不平衡感知训练策略,以应对癌症病例在数据集中极低的比例;第四,通过Shapley加性解释(SHAP)、局部可解释模型无关解释(LIME)以及注意力权重实现临床可操作的可解释性,确保模型的决策支持具有透明性和可信度。

这些组件被整合进TabTransformer架构中,该架构利用自注意力机制对表格形式的健康记录进行分析,捕捉风险因素之间的复杂相互依赖关系。通过与传统模型(如逻辑回归和决策树)以及更先进的深度学习模型(如随机森林和XGBoost)的比较评估,我们发现所提出的方法在UCI宫颈癌风险数据集上达到了95.3%±0.9%的准确率和94.8%±1.1%的F1分数,同时保持了临床相关性和透明度。此外,通过SHAP和LIME验证模型的可解释性,结果显示该模型与已知的风险因素高度一致,进一步强化了其在临床环境中的应用潜力。

在医学诊断中,机器学习的应用虽然展现出巨大的前景,但仍然面临诸多挑战。传统模型如逻辑回归和决策树虽然在某些方面具有良好的可解释性,但它们在处理复杂、非线性的风险因素时往往显得力不从心。例如,Meenakshisundaram等人(2025)的研究表明,尽管随机森林和XGBoost等集成方法在准确率上达到了0.89-0.92,但它们在捕捉高阶特征交互(如吸烟持续时间和HPV感染史的联合效应)方面存在不足,导致对少数群体(癌症阳性病例)的召回率不稳定。同样,Elzein等人(2025)指出,基于逻辑回归的模型在表示行为与临床特征之间的非线性依赖关系时表现不佳,当省略交互项时,F1分数下降了10%-15%。这些研究结果表明,即使采用增强的机器学习方法,如提升或装袋策略,传统框架在建模多因素依赖关系方面仍显不足。

近年来,深度学习架构的创新为医学数据建模提供了新的可能性。其中,TabTransformer框架因其对表格数据的处理能力而备受关注。该框架通过自注意力机制对分类特征生成上下文嵌入,并利用Transformer块建模特征间的相互作用,展现出强大的能力,能够捕捉电子健康记录中的复杂关系。然而,我们的初步实验表明,直接应用TabTransformer进行宫颈癌风险预测时,准确率仅能达到81%-89%,这主要受限于三个关键因素:一是风险因素数据的高维度性,缺乏智能的特征选择机制;二是数据集中癌症病例占比极低(不足2.5%),导致严重的类别不平衡问题;三是缺乏编码已知流行病学关系的领域特定特征表示。

为了解决这些问题,我们提出了PSO-TabTransformer模型,这是一种融合了粒子群优化算法与Transformer架构的端到端特征选择与建模流程。通过引入临床导向的特征工程,我们提取了三个基于证据的风险指标:“性生活持续时间”(自首次性行为以来的时间)、“每位伴侣的怀孕次数”以及“性传播疾病诊断率”。这些特征不仅在统计学上具有显著性,而且在临床实践中具有明确的解释性,有助于医生更好地理解模型的决策依据。

在处理类别不平衡问题时,我们采用了SMOTE技术进行数据预处理,以增加少数类样本的数量,从而缓解训练过程中模型对多数类样本的过度拟合。此外,我们在模型训练阶段引入了焦点损失函数,进一步降低类别不平衡的影响。通过这些策略,我们的模型在保持高预测性能的同时,也能够更准确地识别高风险个体。

为了确保模型的稳健性和泛化能力,我们还进行了k折交叉验证,结果表明该模型在不同数据折叠中均表现出一致的预测性能。同时,我们通过SHAP和LIME等可解释性分析工具,验证了模型在关键风险因素上的关注点,例如HPV感染状态、性伴侣数量以及吸烟年限。这些分析不仅增强了模型的可信度,还为临床医生提供了直观的解释,有助于他们理解模型的决策过程,并将其应用于实际的筛查和诊断工作中。

在实验验证方面,我们进行了严格的消融研究,评估了各个组件对模型性能的影响。结果表明,临床导向的特征工程带来了3.5%的准确率提升,而PSO算法在特征选择过程中实现了68%的特征减少,且未对模型性能造成负面影响。这些结果表明,PSO-TabTransformer框架在保持高准确率的同时,也有效降低了模型的复杂度,使其更易于部署和应用。

此外,我们还验证了双重策略在处理类别不平衡问题上的有效性。通过结合SMOTE预处理和焦点损失优化,我们成功地克服了这一长期存在的挑战。在实际医疗环境中,类别不平衡问题严重影响模型的泛化能力和临床实用性,因此,我们的方法在这一方面具有重要的应用价值。

在模型的可解释性方面,我们利用注意力权重进行可视化分析,这些权重能够揭示模型在决策过程中对不同特征的关注程度。通过这种方式,我们不仅能够解释模型为何对某些样本做出特定的预测,还能识别出哪些特征对风险评估具有更大的影响。这种可解释性对于医疗领域的应用至关重要,因为它直接影响到临床医生对模型结果的信任程度以及患者对筛查建议的接受度。

综上所述,本文提出的PSO-TabTransformer框架在多个方面展现了显著的优势。它不仅提高了宫颈癌风险预测的准确性,还通过智能的特征选择、有效的类别不平衡处理以及可解释的模型设计,确保了模型在实际医疗场景中的适用性。通过将先进的机器学习技术与临床领域知识相结合,我们的研究为医学人工智能在疾病风险预测领域的应用提供了新的思路和方法。

未来的研究方向包括进一步优化模型的计算效率,以适应大规模临床数据的处理需求;探索更多临床相关的特征,以提升模型的预测能力;以及开发更直观的可视化工具,以增强模型的可解释性。此外,我们还计划在更多实际医疗数据集上进行测试,以验证模型的泛化能力,并评估其在不同人群中的适用性。通过这些努力,我们希望推动医学人工智能技术的发展,使其在疾病预防和诊断中发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号