编辑推荐:
为解决环境暴露对健康影响研究中存在的多共线性、非线性和混杂等问题,研究人员开展基于新型方法 SEANN(Summary Effect Adjusted Neural Network)的高血压环境风险评分研究。结果显示 SEANN 在科学性上有显著提升,其对研究高血压病因及防控意义重大。
在当今社会,健康问题备受关注,高血压作为全球范围内导致心血管疾病(CVDs)的主要可预防因素,严重威胁着人们的生命健康。据世界卫生组织统计,CVDs 每年致使约 1790 万人丧生,其中 2015 年就有 850 万人的死亡与收缩压升高(>115 mmHg)相关。一直以来,像年龄、性别、血压等传统的 CVDs 风险因素已被广泛应用于诊断风险评分,但对于环境因素的研究却存在诸多不足。
传统的单环境暴露 - 健康研究存在局限性,难以全面捕捉环境因素间的相互作用和累积效应,而且容易受到混杂因素的干扰。尽管机器学习(ML)和可解释人工智能(AI)的结合为研究带来了新的思路,但多共线性和混杂偏差等问题依然影响着研究结果的准确性。另外,环境风险评分的验证也面临挑战,因为环境暴露的多样性和测量方法的差异,很难找到具有可比暴露数据的外部人群。
在这样的背景下,来自国外的研究人员为深入探究多种环境暴露与高血压之间的关系,开展了一项意义重大的研究。他们运用一种名为 Summary Effects Adapted Neural Network(SEANN)的新型人工智能驱动方法,开发出用于评估高血压的环境风险评分。这项研究成果发表在《Artificial Intelligence in Medicine》上,为高血压的研究和防治提供了新的方向和方法。
研究人员采用了多种关键技术方法。首先,基于西班牙加泰罗尼亚地区 GCAT 队列中 18337 名 40 - 65 岁成年人的数据,这些数据涵盖了 53 种环境因素。其次,运用深度神经网络计算了两个高血压患病率的环境风险评分,一个是使用 SEANN 方法并整合了 11 种来自荟萃分析的合并效应量估计值的 “有信息风险评分”,另一个是作为对比的 “无信息风险评分”。最后,通过计算 Shapley 值来提取和比较从每个神经网络模型中学到的暴露 - 结果关系。
研究结果
- 预测性能:无信息神经网络和 SEANN 的预测性能相似,受试者工作特征曲线下面积(AUC)均为 0.7 。这表明在预测高血压患病率方面,两种方法都具有一定的有效性。
- 科学有效性:SEANN 得到的有信息风险评分在科学有效性上有显著提升。与文献中观察到的关系相比,直接受信息影响的变量更接近预期,其他未受信息影响的变量也得到了成功调整,其关联方向与先前研究更为一致。通过计算两种模型提取的关系与文献中观察到的关系之间的平均 delta SHAP 距离发现,SEANN 的该距离比无信息神经网络低 6 倍。这意味着 SEANN 能更好地反映环境因素与高血压之间的真实关系。
- 关键影响因素:在有信息风险评分中,最具影响力的环境变量包括吸烟强度、地中海饮食依从性、咖啡摄入量和久坐行为。这为后续针对性地制定高血压预防和控制策略提供了重要依据。
研究结论与讨论
这项研究充分展示了 SEANN 相较于传统纯数据驱动的机器学习方法的优势。SEANN 通过将基于文献的合并效应量(PES)与深度学习相结合,使学习到的关系与已有的科学证据保持一致,有效减少了混杂因素的影响,提高了模型的可解释性。这不仅有助于更准确地解析环境暴露对高血压的影响,还为环境健康风险评估提供了更可靠、更透明的决策支持工具。
SEANN 首次将合并效应量(PES)整合到深度学习过程中,成功地结合了神经网络的灵活性和统计研究的可靠性与可解释性。这一创新方法为高血压病因的研究提供了新视角,有助于制定更有效的预防和治疗策略,对改善公众健康具有重要意义。同时,该研究也为其他类似的多因素健康研究提供了借鉴,有望推动生命科学和健康医学领域在环境与健康关系研究方面取得更多突破。