DAGSLAM算法:混合数据类型因果贝叶斯网络结构学习及其在疾病风险因素识别中的应用

【字体: 时间:2025年06月07日 来源:BMC Medical Research Methodology 3.9

编辑推荐:

  本研究针对流行病学中复杂疾病风险因素识别的难题,开发了DAGSLAM算法——一种基于NOTEARS框架改进的、能有效处理混合类型数据(连续/分类变量)的因果贝叶斯网络(BNs)结构学习方法。通过8类20种场景的仿真验证,该算法在精确度、召回率、F1分数和结构汉明距离(SHD)等指标上显著优于HC、TABU等传统方法,并在NHANES数据集应用中成功揭示了冠心病(CHD)与糖尿病的关键因果网络,为公共卫生研究提供了新的分析工具。

  

在流行病学研究领域,慢性病风险因素的识别一直面临重大挑战。传统统计方法如逻辑回归和Cox比例风险模型虽然广泛应用,却难以捕捉代谢紊乱、心血管疾病等多因素疾病间复杂的相互作用网络。这些疾病往往共享风险因素并形成共病关系,而现有分析方法对混合数据类型(如连续型生物标志物和分类型临床结局)的处理能力有限,严重制约了对疾病因果机制的深入理解。

针对这一技术瓶颈,北京大学的研究团队在《BMC Medical Research Methodology》发表创新成果,提出DAGSLAM(Directed Acyclic Graphs Structure learning via Log-determinant and Augmented lagrangian for Mixed type data)算法。这项研究通过扩展NOTEARS框架,首次实现了对混合类型数据的因果贝叶斯网络结构学习,为解析复杂疾病网络提供了突破性工具。

研究方法上,团队采用多维度验证策略:1)基于结构方程模型(SEMs)构建连续变量线性回归和分类变量逻辑回归的混合损失函数;2)引入对数行列式无环约束替代传统矩阵指数约束;3)通过增强拉格朗日法优化带L1
正则化的目标函数;4)利用NHANES 2005-2020年813名老年女性队列数据验证临床实用性。关键技术突破在于将连续变量(如血糖GLU)和分类变量(如冠心病CHD)统一建模,通过阈值ω=0.3控制网络稀疏性。

研究结果部分展现出系统性发现:

模拟研究
在20种仿真场景中,DAGSLAM在节点数(d=10-100)、样本量(n=100-10000)、分类变量比例(10%-50%)等维度均表现优异。特别当分类变量占比≥20%时,其F1分数(0.82)显著优于NOTEARS(0.71)和DAGMA(0.60)。在含4个等级的多元分类变量场景中,算法仍保持0.95的F1分数,证明其对复杂数据类型适应性。

计算效率
虽然处理混合数据导致计算耗时高于NOTEARS(d=100时达103
秒),但在典型流行病学规模(d≤40,n≈1000)下仍具实用性,为精度提升提供了合理权衡。

NHANES应用
构建的疾病网络揭示:空腹血糖(GLU)作为关键起始节点,通过促进糖化血红蛋白(GHB)和腰围(WAIST)增加糖尿病风险;而酒精摄入(AL)显示保护效应(β=-0.32)。意外发现高血压(HTN)与冠心病负相关,可能反映确诊后的积极健康管理行为。腰围对高密度脂蛋白(HDL)的抑制作用(β=-0.41)则印证了中心性肥胖与心血管风险的代谢联系。

这项研究的核心价值在于方法论创新与临床洞察的双重突破。理论上,DAGSLAM首次实现混合数据类型的高效因果学习,通过log-det约束和增强拉格朗日优化,解决了传统方法对离散变量建模的局限性。实践层面,算法在NHANES数据中揭示的"血糖-腰围-血脂"代谢轴为老年女性慢性病防控提供了新靶点,而酒精与冠心病负相关等非直观发现则提示了进一步研究的方向。研究者特别指出,当数据中分类变量占比≥2.5%时推荐使用DAGSLAM,否则可选用计算更高效的NOTEARS或DAGMA。

该成果为复杂疾病网络的因果推断设立了新标准,其开源实现(GitHub可获取)将推动精准公共卫生研究范式的发展。未来工作可望在非线性关系建模、先验知识整合等方面继续拓展,进一步增强算法在真实世界医疗大数据中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号