编辑推荐:
针对肺癌 CT 扫描图像高维、不平衡数据分类难题,研究人员开展基于二进制蝙蝠群算法(BBSA)优化斜决策树(OBT)的分类研究,构建 MLSC 模型。在 TCGA_LUSC_2016 等数据集上,模型准确率等指标优于传统方法,为肺癌精准诊断提供新方案。
肺癌作为全球死亡率最高的恶性肿瘤之一,其早期精准诊断一直是临床研究的关键挑战。肺癌 CT 扫描图像蕴含的生物医学数据具有高维度、类分布不平衡的特点,传统分类方法因难以有效处理这些特性,容易导致少数类样本误判,严重影响诊断准确性。此外,高维特征空间中存在大量冗余信息,不仅增加计算复杂度,还可能掩盖关键生物学标记,使得从复杂数据中提取有效分类特征成为亟待解决的问题。在此背景下,开展针对肺癌图像的高效分类算法研究,对于提升早期诊断率、优化治疗方案具有重要临床意义。
来自印度 VM Singh Bhandari 北阿坎德邦技术大学、石油与能源研究大学等机构的研究人员,致力于解决肺癌生物医学数据分类中的关键难题。他们提出了一种基于二进制蝙蝠群算法(Binary Bat Swarm Algorithm, BBSA)优化斜决策树(Oblique Decision Tree, ODT)的机器学习群分类器(Machine Learning Swarm Classifier, MLSC)模型,并将相关研究成果发表在《Scientific Reports》上。该研究通过创新算法整合,旨在突破传统方法在处理高维和不平衡数据时的局限性,为肺癌图像的精准分类提供新的技术路径。
研究主要采用了以下关键技术方法:首先利用 BBSA 进行自适应特征选择,该算法模拟蝙蝠回声定位行为,通过二进制编码和莱维飞行(Levy Flight)机制在高维空间中高效搜索最优特征子集,平衡探索与开发能力。其次构建 ODT 分类器,其突破传统决策树轴对齐分割限制,允许决策边界以任意角度划分特征空间,从而更灵活地捕捉数据间复杂关联。研究使用 TCGA_LUSC_2016 和 TCGA_LUAD_2016 肺癌数据集,包含 552 例和 576 例样本,采用 80:20 训练测试划分及五折分层交叉验证,以准确率、精确率、召回率、F1 分数等作为评估指标。
结果分析
特征选择稳定性与分类稳定性
通过 2000 次迭代分析 BBSA 的收敛模式,结果显示 TCGA_LUSC_2016 和 TCGA_LUAD_2016 数据集的收敛值随迭代增加呈下降趋势并趋于稳定,表明 BBSA 能有效收敛至最优特征子集。ODT 结构的计算复杂度分析显示,随迭代增加复杂度逐渐降低并稳定,说明 ODT 在优化过程中形成高效决策边界,且 TCGA_LUSC_2016 数据集因复杂度较高需更多计算资源。
与现有方法性能对比
在准确率方面,MLSC 模型在两类数据集上随迭代增加均显著高于 M-BMIRC、TL-DLE 等传统方法,最高准确率提升 4.6%,尤其在处理不平衡数据时显著降低少数类误判率。精确率评估中,MLSC 通过减少假阳性预测,展现出更强的阳性样本识别能力,较传统方法提升 4.5%。召回率结果显示,MLSC 对少数类样本的捕捉能力显著增强,提升 7.5%,有效解决了传统方法对稀有肿瘤亚型漏检的问题。F1 分数作为精确率与召回率的调和均值,MLSC 实现 7.5% 的提升,表明其在平衡分类性能上的优势。此外,MLSC 的执行时间和计算效率均优于现有方法,体现出资源利用的高效性。
模型鲁棒性与临床潜力
研究通过限制树深度和 BBSA 特征选择,在一定程度上提升了 ODT 的可解释性,尽管仍存在挑战,但为临床应用奠定了基础。模型在真实肺癌数据集上的优异表现,显示出其在早期检测和个性化治疗中的应用潜力,例如基于 CT 扫描数据的肿瘤亚型精准分类和电子健康记录的预后预测。
结论与讨论
本研究提出的 MLSC 模型通过 BBSA 与 ODT 的深度整合,成功解决了肺癌生物医学数据分类中的高维性、不平衡性及传统算法的局限性问题。实验结果表明,该模型在准确率、精确率、召回率和 F1 分数等关键指标上均显著优于现有方法,同时具备更高的计算效率和稳定性。其核心创新在于利用群体智能算法实现特征空间的全局优化,结合 ODT 的灵活决策边界捕捉复杂数据关联,为肺癌的精准诊断提供了一种高效、鲁棒的新工具。
该研究的意义不仅在于提升肺癌图像分类的技术水平,更在于为生物医学领域中类似的高维不平衡数据问题提供了通用解决方案。未来研究可进一步探索深度学习与群体智能的结合,拓展模型在更大规模数据集和复杂临床场景中的应用,并通过引入可解释性工具和临床医生反馈,推动算法从实验室走向实际诊疗流程,最终为肺癌患者的早期干预和个体化治疗提供更坚实的技术支撑。