
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于生成对抗网络和Kolmogorov-Arnold网络的甲状腺疾病三分类模型:提升诊断准确性与可解释性的创新研究
【字体: 大 中 小 】 时间:2025年08月02日 来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究针对甲状腺疾病分类中数据不平衡和模型可解释性差的临床难题,创新性地结合生成对抗网络(GANs)数据增强与Kolmogorov-Arnold网络(KANs)分类器,在UCI甲状腺数据集上实现98.68%的准确率。通过SHAP和LIME可解释性分析揭示TSH(促甲状腺激素)为关键生物标志物,为AI辅助诊断系统提供透明决策依据,研究成果发表于《BMC Medical Informatics and Decision Making》。
甲状腺作为人体重要的内分泌器官,其功能紊乱引发的甲状腺功能亢进(hyperthyroidism)和减退(hypothyroidism)影响着全球数亿人的代谢健康。传统诊断依赖促甲状腺激素(TSH)和甲状腺激素(T3/T4)检测,但临床实践中面临两大痛点:一是罕见病例数据稀缺导致AI模型偏倚,二是"黑箱"算法难以获得医生信任。更棘手的是,UCI标准数据集中三类样本比例严重失衡(正常:甲亢:甲减=1:40:18),这使得现有机器学习方法在少数类识别上表现堪忧。
针对这些挑战,伊斯坦布尔理工大学工业工程系与吉雷松大学数据科学系的研究团队开创性地构建了"双重创新"框架。他们首先采用生成对抗网络(GANs)合成逼真的甲状腺病例数据,攻克样本不平衡难题;随后引入数学基础坚实的Kolmogorov-Arnold网络(KANs)替代传统神经网络,在保持98.68%超高准确率的同时,将模型参数减少60%。这项发表于《BMC Medical Informatics and Decision Making》的研究,首次实现了甲状腺疾病分类中精度与可解释性的双重突破。
关键技术路线包含四个核心环节:(1)采用条件Wasserstein GAN(CWGAN)生成符合真实分布的合成数据,经Kolmogorov-Smirnov检验证实相似性(P>0.05);(2)设计混合架构KANs网络,利用样条参数化激活函数替代MLP的固定神经元;(3)集成SHAP(SHapley Additive exPlanations)和LIME(Local Interpretable Model-agnostic Explanations)可解释性模块;(4)基于7,200例UCI数据集开展五折交叉验证,对比RF、SVM等8种基线模型。
在原始数据上,随机森林(RF)以94.35% F1-score领先,但KANs经GAN增强后实现98.71%的惊人提升。特别值得注意的是,KANs在保留临床关键特征方面展现出独特优势——其生成的合成数据与真实数据的Jensen-Shannon散度仅0.145,远优于传统过采样方法。
SHAP分析揭示TSH的贡献值达0.16(均值),显著高于TT4(总甲状腺素)的0.03。这一发现与临床共识高度吻合:TSH作为下丘脑-垂体-甲状腺轴(HPT axis)的核心调控因子,其灵敏度是游离T4(FT4)的10倍。研究还发现"正在服用甲状腺素(On_thyroxine)"与年龄的交互作用对甲减诊断具有特异性提示价值。
通过LIME算法对1768号病例的局部解释显示,当TSH>5.6mIU/L且TT4<7.2μg/dL时,模型预测甲减的概率达92%。团队进一步开发了交互式Shiny应用(https://fourieroutlierdetection.shinyapps.io/lime/),医生可实时输入患者指标获取可视化决策依据。
这项研究标志着甲状腺疾病诊断迈入"透明AI"新时代。GANs与KANs的协同创新不仅解决了医学AI领域的数据饥渴问题,其构建的"白箱"决策机制更符合临床伦理要求。特别值得关注的是,模型识别出甲亢患者中TSH与体重变化的非线性关系,这为后续开展甲状腺-代谢研究提供了新思路。随着FDA对AI医疗设备监管的加强,这种兼具高性能与可审计性的框架,或将成为智慧医疗落地的标准范式。
生物通微信公众号
知名企业招聘