基于轻量级神经网络集成学习的精准前列腺癌小样本预测研究

【字体: 时间:2025年09月04日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  推荐:针对小样本前列腺癌数据预测中的过拟合问题,研究人员创新性地采用GRU和TCN两种轻量级神经网络架构,结合Snapshot集成学习方法,在澳大利亚真实数据集上实现比传统ARIMA模型高达44.67%的准确率提升,为边缘智能环境下的癌症趋势预测提供了高效解决方案。

  

前列腺癌作为澳大利亚男性最高发的恶性肿瘤,每年新增病例超过2万例,其发病率和死亡率的精准预测对公共卫生决策至关重要。然而,医疗数据的隐私性和采集难度导致前列腺癌数据集普遍存在样本量小、时间跨度长、非平稳性强等特点,传统线性模型如ARIMA难以捕捉复杂非线性特征,而大型神经网络又面临严重的过拟合风险。这一矛盾促使深圳大学高等技术研究院的Yuting Cao团队在《Knowledge-Based Systems》发表创新研究,首次将轻量级神经网络与集成学习相结合,为小样本癌症预测开辟新路径。

研究采用两大核心技术:其一是模型架构创新,选择门控循环单元(GRU)和时间卷积网络(TCN)分别代表循环神经网络和卷积神经网络两大分支,GRU通过简化LSTM的门控机制保留长期依赖捕捉能力,TCN则利用因果膨胀卷积实现高效时序建模;其二是训练策略优化,通过批量归一化(BN)、Dropout和Snapshot集成方法(在900/950/1000训练周期保存模型快照)增强泛化能力。实验数据来自澳大利亚国家癌症控制指标(NCCI)1982-2019年的前列腺癌发病率、标化发病率和死亡率三组真实数据。

在"澳大利亚年度癌症发病率预测"部分,TCN以仅4,425参数量实现3.27%的MAPE(平均绝对百分比误差),较ARIMA提升44.67%,其膨胀卷积结构有效捕捉了PSA检测技术推广引发的数据突变特征。针对"年龄标化发病率数据集",TCN保持33.01%的优势,证明其对非平稳时间序列的强适应性。而在"年度癌症死亡率预测"中,TCN仍以2.26%的MAPE领先ARIMA约10%,但优势缩小,反映出神经网络对平稳序列的适应性局限。

模型对比分析揭示重要规律:ARIMA在低方差平稳数据中表现优异,而TCN凭借17,169参数即实现最优性能,其参数量比GRU减少34.5%但准确率提升30.7%,证实了稀疏连接和参数共享在小型数据集中的价值。值得注意的是,Snapshot集成使单一训练过程获得多个弱学习器,以最小计算成本将模型鲁棒性提升21-44%。

该研究突破性地证明:通过结构精简(TCN仅34层/16神经元)和集成正则化,神经网络能在小样本场景超越传统线性模型。这不仅为前列腺癌动态监测提供40%以上的准确率增益,更开创了边缘智能设备部署医疗AI的新可能。未来结合数据增强和迁移学习,此类轻量化框架有望拓展至乳腺癌、肺癌等罕见病预测领域,推动精准医疗普惠化发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号