
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于超声图像混合特征与AutoML的乳腺癌智能分类新方法
【字体: 大 中 小 】 时间:2025年07月17日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对乳腺癌超声图像分类难题,创新性地提出融合纹理特征(Haralick)与形状特征(Hu矩)的混合特征(HF)构建方法,通过多项式回归整合两类特征,并采用PyCaret和TPOT两种AutoML工具进行模型优化。实验表明,基于熵和Hu矩的HF组合经AdaBoost分类器(ADB)准确率达91.4%,MLP分类器达90.6%,显著提升分类性能。研究通过Bagging、Boosting和Stacking等集成学习(EML)技术验证结果,为乳腺癌精准诊断提供新思路。
乳腺癌是全球女性健康的首要威胁之一,世界卫生组织数据显示,2020年新增病例超过226万例,死亡人数近68.5万。传统诊断依赖医生对超声图像中病灶形状和纹理的主观判断,存在效率低、一致性差等问题。尽管已有研究尝试利用机器学习(ML)或深度学习分析单一类型特征(如纹理或几何特征),但分类准确率仍受限于特征表达不充分和模型泛化能力不足。
为解决这一难题,罗马尼亚"Dunarea de Jos"大学("Dunarea de Jos" University of Galati)的Gigi Tabacaru团队在《Scientific Reports》发表研究,首次提出通过多项式回归融合Haralick纹理特征与Hu形状矩的混合特征(HF)构建方法,并引入自动化机器学习(AutoML)技术优化分类流程。该研究通过提取超声图像病灶区域的能量(EN)、熵(ENT)等6种Haralick特征,结合6个Hu不变矩,生成6组HF(y1-y6),利用PyCaret和TPOT自动筛选最优分类器及超参数,最终通过集成学习(EML)验证模型稳定性。
关键技术包括:1)基于乳腺超声图像数据库(BUSI)的病灶区域分割与特征提取;2)多项式回归构建HF;3)PyCaret和TPOT双AutoML系统优化;4)Bagging、Boosting和Stacking三重验证。研究采用公开BUSI数据集(487例良性/210例恶性),通过十折交叉验证确保结果可靠性。
混合特征构建
通过将Haralick纹理特征(如能量EN=∑p(i,j)2)与Hu形状矩(η1=μ20+μ02)进行六次多项式回归,生成6组HF。如图1所示,病灶区域(ROI)经掩膜提取后,分别计算纹理与形状特征。
数据分布分析
如图3所示,y1(EN+Hu矩)和y2特征在良恶性样本中呈现显著分布差异(良性中位数0.18 vs 恶性0.14),而y3-y6分布混乱,预示前两组特征更具分类潜力。
AutoML分类性能
如表2-4所示,PyCaret优选ADB分类器(学习率1.0,n_estimators=50),对y1特征实现91.4%准确率(AUC 0.955);TPOT优选MLP分类器(α=0.0001)达90.6%准确率(AUC 0.981)。
集成学习验证
如表5所示,Stacking方法验证y1特征最高准确率达92.8%,显著优于单一模型,证实HF的鲁棒性。
该研究开创性地将纹理与形状特征通过多项式回归融合,解决了单一特征表达能力不足的问题。通过AutoML自动化优化,避免了传统ML调参的盲目性,其中能量(EN)与第一Hu矩的组合被证明最具鉴别力。临床层面,该方法可辅助医生快速区分良恶性病灶,减少不必要的活检;技术层面,为医学影像分析提供了特征融合与AutoML协同优化的新范式。未来可进一步探索 fractal特征与深度特征的结合,拓展至其他癌症的智能诊断领域。
生物通微信公众号
知名企业招聘