KHOI-SMOTE:一种基于k-means聚类和h-异常值指数的高效过采样技术,用于处理不平衡的医疗数据

《Neurocomputing》:KHOI-SMOTE: an efficient oversampling technique based on k-means clustering and h-outlyingness index for imbalanced medical data

【字体: 时间:2026年01月15日 来源:Neurocomputing 6.5

编辑推荐:

  针对类不平衡问题,提出KHOI-SMOTE方法,结合k-means聚类和h-outlyingness指数(HOI),将合成样本生成重点从同一聚类内转向跨聚类稀疏区域,减少噪声传播并提升分类性能。实验在22个涵盖基准和医学的数据集上验证其优于传统SMOTE及变种,假设检验确认显著差异。

  
类不平衡问题在机器学习领域长期存在,尤其在医疗诊断等高风险场景中,数据分布的严重失衡会导致模型忽视少数类特征,直接影响临床决策的准确性。以甲基丙二酸尿症(MMA)为例,其中cblC和mut亚型占比不足5%,但误判可能引发不可逆神经损伤。现有解决方案多聚焦于数据层面的过采样或欠采样,但传统方法如SMOTE存在两个核心缺陷:一是随机插值导致噪声传播,二是未有效处理跨聚类稀疏区域。针对这些问题,本文提出KHOI-SMOTE框架,通过融合k-means聚类与HOI指数实现跨区域精准采样,已在22个涵盖基准数据集和真实医疗场景的数据集上验证其有效性。

传统过采样技术面临双重挑战。在医疗影像分析中,若将正常组织视为多数类(占比95%以上),传统SMOTE会在高密度区域过度采样,导致模型过度拟合。实验表明,此类方法在MMA亚型识别时准确率下降达18%。更严重的是,当噪声样本(如误标记的正常细胞)参与合成时,线性插值会生成无效数据。某乳腺癌数据库的对比实验显示,SMOTE在噪声比例超过3%时,模型AUC值骤降12-15%。

KHOI-SMOTE的创新性体现在两方面技术整合。首先采用k-means对少数类进行多维度聚类,将单维度特征空间扩展到特征空间中的几何分布特征。在肝纤维化诊断数据集中,该步骤成功识别出3类具有生物显著性的亚群:早期肝损伤(n=87)、中期纤维化(n=42)、晚期肝硬化(n=15)。其次引入HOI指数,该指标借鉴h指数的引用机制,从样本与"质量核心"的距离和核心样本量两个维度定义稀疏区域。在模拟数据实验中,HOI值超过阈值0.75的样本占比仅4.3%,显著低于SMOTE随机选样的23.6%。

跨聚类稀疏区域定位是核心突破点。实验采用多视角距离计算:在原始特征空间(X轴)和核密度估计空间(Y轴)同时量化样本位置。以糖尿病视网膜病变数据为例,SMOTE在单维度空间随机插值,而KHOI-SMOTE通过计算HOI值(HDI≤0.6且邻域样本量≥50)确定跨聚类边界区域。可视化结果显示,KHOI-SMOTE在视网膜血管分形特征区域(特征值1-3区间)的采样密度提升37%,同时避免在正常组织密集区(特征值5-7区间)过度采样。

该方法在三个层面实现性能突破。首先,跨区域采样机制使少数类分布更接近多数类特征空间。在脑肿瘤分类中,传统SMOTE将70%合成样本集中在灰质区域,而KHOI-SMOTE通过HOI引导将样本均匀分布到白质-灰质交界区(占61.3%),使模型对微小肿瘤的识别率提升29%。其次,多维度聚类减少信息损失。某血液肿瘤数据集经k-means聚类后,可划分出6个生物学亚型,传统方法在聚类2和4间采样导致特征混淆,而KHOI-SMOTE通过邻域关系约束,使各亚型保留率提高至92%。最后,动态阈值机制平衡不同场景需求。在新生儿筛查中,设置HOI阈值0.65时,合成样本与真实样本的类内距离标准差缩小41%,达到临床可接受范围。

实验验证部分展示了该方法的多场景适应性。在基准数据集(8个UCI/KEEL数据集)测试中,KHOI-SMOTE在 schn verses 和 credit-g datasets上分别达到98.7%和97.2%的准确率,超越SMOTE-ENN(94.5%)、SMOTE-ENN+GSM(95.8%)等14种主流方法。医疗数据集表现尤为突出:在16例MMA亚型诊断中,KHOI-SMOTE使敏感度从82%提升至96%,特异性保持89%以上。在阿尔茨海默病早期筛查数据(n=125)中,其F1-score达到0.91,较次优方法提升15.7个百分点。

技术实现路径包含四个关键步骤:1)基于DBSCAN的异常检测预处理,去除2.8%的噪声样本;2)采用改进的k-means++初始化策略,在3次迭代中收敛至最优聚类中心;3)HOI指数计算中引入特征空间自适应权重,针对不同医学数据调整距离度量系数;4)双阶段采样机制,先在类内填补小间隙(间隔≤0.5特征单位),再跨类均匀扩展(间隔≥1.2特征单位)。某心电数据集的验证显示,该机制使采样样本的类内距离标准差从0.87降至0.42,同时跨类距离差扩大至2.15。

消融实验揭示了各组件的贡献度。当移除k-means聚类模块时,在14个医疗数据集上平均F1-score下降12.3%。若替换HOI指数为传统欧氏距离,跨聚类采样效率降低至43%。最关键的是双机制协同作用:在乳腺癌病理切片分析中,仅使用聚类模块的准确率为89.2%,而结合HOI指数时达到93.7%。这说明聚类提供基础框架,HOI指数实现精准定位。

应用验证部分包含三个典型案例:1)新生儿遗传代谢病筛查:将MMA亚型识别率从82%提升至96%,误报率下降37%;2)肺癌早期CT影像分析:在5个亚型(腺癌、鳞癌等)中保持92%的一致识别率;3)糖尿病视网膜病变分级:AUC值从0.78提升至0.89,且在3期病变中识别敏感度达100%。特别在处理真实医疗数据中的样本稀疏问题,如某罕见病数据库(n=217)中,KHOI-SMOTE通过跨聚类采样使模型在末梢亚型的表现提升41%。

对比分析显示,KHOI-SMOTE在三个维度具有显著优势:1)噪声抑制能力:在含8.3%噪声样本的脑卒中数据集上,其F1-score仍保持91.2%,而SMOTE-ENN降至78.4%;2)泛化性提升:在跨领域医疗数据(从肿瘤到代谢病)的迁移测试中,模型性能波动幅度从±15.6%降至±6.2%;3)计算效率优化:通过并行计算处理跨聚类关系,在512核GPU上,处理10万样本集的时间缩短至8.7分钟,较传统方法快3.2倍。

该研究对临床实践具有直接指导价值。在某三甲医院的应用中,KHOI-SMOTE支持的AI诊断系统使早中期胃癌检出率提高至97.3%,误诊率降低至0.7%。在数据采集受限的罕见病场景(如杜氏肌营养不良),该方法通过跨聚类采样生成的虚拟样本,使模型在原始数据量不足50例时仍保持85%以上的准确率。这些成果已纳入国家新药评审辅助系统,并应用于三个省级医院的临床诊断流程。

未来研究方向包括:1)动态特征加权机制,解决不同医学影像模态的特征重要性差异问题;2)多模态数据融合,将基因组学数据与影像特征结合进行跨模态采样;3)增量学习模块,实现病种扩展时的模型自适应更新。当前研究已取得阶段性成果,相关专利正在申请中,预计2024年完成原型系统开发并进入临床验证阶段。

实验设计遵循严格方法论:1)数据预处理阶段采用SMOTE-ENN联合去噪,确保数据质量;2)特征工程通过主成分分析与Wong分位数合并,将维度从128降至25;3)模型选择采用贝叶斯优化,在XGBoost、LightGBM、CatBoost三个框架中自动选择最优参数组合。在20次交叉验证中,KHOI-SMOTE在三个分类器上分别达到:XGBoost 0.917±0.012,LightGBM 0.913±0.011,CatBoost 0.921±0.009,显著优于传统方法组合。

统计验证采用混合效应模型,对22个数据集的36种评估指标进行纵向分析。通过FDR校正(p<0.05)发现,KHOI-SMOTE在12个指标上具有统计学显著优势(效应量d=0.67-1.24),其中最重要是误分类成本比(p=0.003,Cohen's d=1.15)。在极端不平衡数据集(少数类占比0.3%)的测试中,该方法使模型达到0.898的F1-score,而传统SMOTE仅0.632。

研究团队特别关注算法的可解释性,开发了可视化分析工具:1)聚类热力图显示HOI指数指导下的采样区域分布;2)特征重要性图谱追踪跨聚类采样对模型决策的影响;3)合成样本与真实样本的t-SNE投影对比。在某三阴性乳腺癌数据库中,可视化结果证实KHOI-SMOTE生成的样本更符合已知生物学特征,模型在ER/PR/HER2三指标上的解释性评分(r2=0.91)显著高于传统方法。

最后,该框架在资源受限场景表现出独特优势。在移动医疗设备(如便携式超声)产生的低质量数据集(PSNR<30dB)中,KHOI-SMOTE通过跨聚类稀疏区域采样,使模型在鲁棒性测试中表现稳定(CV=0.12),而传统方法CV波动达0.35。这为基层医疗机构的AI辅助诊断提供了可行解决方案。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号