
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于星系动力学启发的图正未标记学习中代表性负样本采样方法
【字体: 大 中 小 】 时间:2025年09月06日 来源:Neurocomputing 6.5
编辑推荐:
本文提出StarHunter-PU(SH-PU)框架,创新性地将星系动力学原理引入图正未标记(GPU)学习领域。通过动量移动平均构建动态"引力中心"原型,在嵌入空间划定可靠负样本区域("引力场"),解决传统可靠负采样(RN)方法因代表性偏差和决策边界失真导致的模型泛化性不足问题。实验表明该方法在生物信息学(如基因变异分析、蛋白质互作预测)场景中显著优于现有技术。
亮点
(1) 动态"星系洞察"理论:突破静态聚类范式,将阳性类中心建模为通过动量移动平均持续演化的"引力中心",为动态训练环境提供稳定参考基准,显著提升负样本的代表性与质量。
(2) StarHunter-PU框架:将星系动力学原理转化为端到端解决方案,整合自监督图表示学习与原型引导负采样算法,系统性地捕获阴性空间多样性(如基因变异中的致病/非致病突变差异)。
实验验证
在真实生物医学数据集(包括蛋白质相互作用网络和基因组变异图谱)的测试中,SH-PU的F1分数超越现有PU学习方法,部分场景甚至优于全监督图神经网络(GNN)。
结论
SH-PU通过模拟天体物理中的连续运动规律(如恒星渐进轨迹),构建动态原型更新机制,克服了传统K-means式硬更新的跳跃性问题。该框架在保持阴性样本可靠性的同时,有效覆盖生物医学图谱中的复杂模式分布(如蛋白质功能异质性),为疾病相关突变筛查等任务提供新范式。
作者贡献声明
王璐玥:核心算法设计;冯鑫源:数据验证;毛瑞:基金支持;李茵:课题监督;梁春泉:理论指导与论文修订。
利益冲突声明
作者声明不存在可能影响本研究客观性的财务或个人关系。
致谢
本研究获陕西省重点研发计划(2024NC-ZDCYL-05系列)、国家大学生创新训练项目(202410712205)等资助。
生成式AI使用声明
论文撰写过程中采用AI研究助手进行语言优化,所有科学结论均由作者独立验证。
(注:严格保留原文专业术语如F1 score、GNN等中英对照,星系动力学等比喻性表述按原文语境保留)
生物通微信公众号
知名企业招聘