编辑推荐:
为解决口腔癌早期诊断难题,如特征选择能力有限、数据集不平衡和计算效率低等问题,研究人员开展 TR-ROS-BAT-ML 诊断框架研究。结果显示该框架诊断性能高,优化后的 ET 模型召回率达 0.992。其为口腔癌检测提供高效工具,助力 AI 医疗发展。
在全球范围内,口腔癌如同隐藏在暗处的健康杀手,时刻威胁着人们的生命。它是常见的恶性肿瘤之一,发病部位集中在嘴唇、舌头、牙龈等口腔部位。由于缺乏有效的早期检测策略,很多患者确诊时已处于晚期,这使得口腔癌的死亡率居高不下。传统的诊断方式,像人工组织病理学检查,不仅耗费大量时间,而且诊断结果容易受到观察者主观因素的影响,准确性难以保证。在这样的困境下,开发更精准、高效的口腔癌检测方法迫在眉睫。
为了攻克口腔癌早期检测的难题,来自未知研究机构的研究人员开展了一项具有创新性的研究。他们提出了一种名为 TR-ROS-BAT-ML 的诊断框架,将迁移学习(Transfer Learning)、随机采样(Random Sampling,ROS)、基于 BAT 算法的优化策略与集成机器学习分类器相结合。该研究成果发表在《Computers in Biology and Medicine》杂志上,为口腔癌检测带来了新的曙光。
研究人员在这项研究中运用了多种关键技术方法。首先,他们从 230 名患者那里收集了 1224 张正常口腔上皮和口腔鳞状细胞癌(Oral Squamous Cell Carcinoma,OSCC)的苏木精 - 伊红(Hematoxylin and Eosin,H&E)染色组织学图像(放大倍数为 100 倍和 400 倍),这些图像成为后续研究的重要数据基础。接着,研究人员借助预训练的深度学习模型,如 NANSNetLarge、EfficientNetB7、EfficientNetV2L、EfficientNetV2S、EfficientNetV2M 等进行特征提取,这些预训练模型能够从医学图像中高效地提取高层次特征。针对医学数据中普遍存在的类不平衡问题,即癌症样本数量远少于非癌症样本,研究人员采用随机过采样技术对数据集进行重新平衡,让机器学习模型训练更加公平、稳定。此外,受蝙蝠回声定位行为启发的 BAT 算法被用于特征选择和超参数调整,以优化机器学习模型的性能。最后,研究人员使用集成方法,包括 XGBoost、AdaBoost、Extra Trees(ET)、Histogram - Based Gradient Boosting(HBGC)和 MultiLayer Perceptron(MLP),对优化后的特征进行分类。
下面来看具体的研究结果:
- 模型调优:研究人员利用训练集中的 OSCC 视觉补丁对预训练模型(如 EfficientNetV2M、EfficientNetV2L、EfficientNetB7、NANSNetLarge 和 EfficientNetV2S)进行微调。这些预训练模型在医学图像特征提取方面展现出强大的能力,通过微调可以更好地适应口腔癌检测的特定任务。
- 分类性能评估:研究对比了多种集成模型(如 XGBoost、AdaBoost、ET、HBGC)和基础模型(如决策树 Decision Trees、多层感知器 MLP - BP)在口腔癌检测中的性能。结果显示,该研究提出的方法在多种模型组合中都取得了较高的诊断性能。其中,使用随机过采样优化后的 ET 模型表现最为出色,召回率达到了 0.992,这表明该模型在检测口腔病变方面具有极高的效能。而 EfficientNetV2S + ROS + MLP 的组合准确率最低,仅为 50.8% 。
在研究结论和讨论部分,研究人员成功将迁移学习原理应用于对 OSCC 图像进行良恶性病变的二分类。经过微调的预训练卷积神经网络(Convolutional Neural Networks,CNN)模型,如 NANSNetLarge、EfficientNetB7、EfficientNetV2L、EfficientNetV2S 和 EfficientNetV2M,在与多种集成模型结合使用时,展现出了不同的性能表现。实验结果表明,对数据集进行过采样有助于提高模型的性能,这为解决医学数据类不平衡问题提供了有效的思路。该研究提出的 TR - ROS - BAT - ML 框架具有良好的可扩展性、准确性和高效性,有望成为一种实用的口腔癌诊断工具,在实际医疗场景中,特别是资源有限的健康中心发挥重要作用。此外,这项研究不仅提升了口腔癌的诊断准确性,还为人工智能辅助医疗研究的发展做出了重要贡献,促进了机器学习、生物启发计算与医学实践的交叉融合,为未来个性化医疗和自动化癌症诊断的进一步发展奠定了坚实的基础。