
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双向图与完全有向图融合的缺失数据插补方法创新研究
【字体: 大 中 小 】 时间:2025年06月21日 来源:Neurocomputing 5.5
编辑推荐:
针对表格数据中特征间依赖关系未被充分挖掘的难题,华东师范大学团队提出BCGNN模型,通过结合双向图(Bipartite Graph)和完全有向图(Complete Directed Graph)结构,创新性地建模特征-特征高阶依赖关系。实验表明,该模型在多种缺失机制下平均降低15%的MAE(平均绝对误差),为临床研究和金融数据分析提供了更鲁棒的插补工具。
在数据驱动的科研与商业决策中,缺失数据如同拼图中遗失的碎片,严重影响分析结果的可靠性。尤其临床研究、金融风控等领域,传统插补方法如EM算法、MICE依赖参数假设,而深度学习模型如GAIN、DAE难以捕捉特征间复杂关联。更棘手的是,现有图神经网络(GNN)方法多聚焦样本相似性,却忽视了特征-特征相互作用这一关键维度——这正是华东师范大学团队在《Neurocomputing》发表的研究试图突破的瓶颈。
研究团队提出BCGNN(Bipartite and Complete directed Graph Neural Network),其核心技术包含:1)构建观察节点与特征节点的双向图,通过属性边编码细胞值;2)设计完全有向图表征特征依赖,引入元素级注意力机制与Spearman相关系数符号;3)采用DropEdge和AttentionDrop防止过拟合。实验使用UCI的Cancer、Protein等7个跨领域数据集验证,对比GRADE、IGRM等基线模型。
Problem definition
将n×m维数据矩阵D建模为观察节点(样本)与特征节点的双向图,掩码矩阵M标识缺失值。创新性地将每个观测值Dij转化为连接两类节点的属性边,实现细粒度信息传递。
Datasets and baseline models
在包含45,000样本的Protein数据集等高维场景下,BCGNN展现出显著优势。相比仅建模样本相似性的IGRM,新模型在Energy数据集上MAE降低21.7%,证实特征依赖学习的普适性。
Conclusion
研究证明:1)完全有向图能显式参数化特征间高阶依赖,其元素级注意力机制比传统节点级注意力更精准;2)双向图结构可归纳学习未见数据特征,在MNAR(非随机缺失)场景下鲁棒性提升34%;3)联合训练策略使下游分类任务F1-score提高12.3%。该框架为生物医学等领域的多模态数据整合提供了新范式。
这项工作的里程碑意义在于:首次将特征拓扑关系纳入表格数据插补的建模框架,突破传统GNN的样本中心主义局限。正如研究者Zhaoyang Zhang所述:"BCGNN像同时拥有显微镜和望远镜——既能观察细胞级特征交互,又能把握全局数据结构。"未来可扩展至时间序列和因果推理领域,为精准医疗中的缺失值处理开辟新路径。
生物通微信公众号
知名企业招聘