编辑推荐:
痴呆是全球日益严重的健康威胁,为探究其可改变的风险因素及因果机制,研究人员运用自然语言处理(NLP)模型和因果发现方法开展研究。他们识别出 8 个影响痴呆的风险因素,这有助于理解痴呆机制,也凸显了 NLP 和机器学习在复杂疾病研究中的潜力。
在全球老龄化进程不断加快的当下,痴呆已成为一个不容忽视的健康难题。目前,全球有超过 5500 万人受其困扰,预计到 2025 年这一数字将增至三倍。年龄是痴呆已知的最强风险因素,但它无法改变。虽然《柳叶刀》委员会报告了 14 个可改变的风险因素,还有研究识别出 39 个相关风险因素,然而这些因素与痴呆之间的潜在因果机制却并不明确。为了深入了解痴呆的发病机制,找到有效的预防和干预方法,来自英国曼彻斯特大学、伦敦帝国理工学院等机构的研究人员展开了一项极具意义的研究 。他们的研究成果发表在《npj Dementia》上,为痴呆研究领域带来了新的曙光。
研究人员在这项研究中运用了多种关键技术方法。首先,从包含 50 多万参与者、9079 个变量的英国生物银行(UK Biobank)数据库获取数据,并对数据进行筛选和预处理。接着,使用预训练的自然语言处理(NLP)模型,即 Word2Vec 和 Doc2Vec 信息检索(IR)模型,从大量变量中选择与痴呆相关的候选变量。之后,利用混合图形模型(MGM)初步推断变量间的数据结构,再结合快速因果推断(FCI)算法,构建痴呆的因果网络。
识别因果网络与风险因素
研究人员最终确定了 120 个变量进行网络分析,成功识别出 8 个可能与痴呆发病密切相关的变量。其中,由脑损伤、功能障碍和身体疾病导致的其他精神障碍(ICD10 - F06)是痴呆风险的直接贡献因素,同时它还在其他脑部疾病、面神经疾病以及脑损伤和功能障碍导致的人格和行为障碍对痴呆的影响中起中介作用,但这些中介关系可能受到未观察到的因素干扰。在包含 chronological age 的网络分析中,发现 chronological age 直接影响痴呆,但这种关系可能被潜在因素混淆。当用 phenotypic age 替代 chronological age 时,发现 phenotypic age 与痴呆存在直接关联,并且在肠癌筛查与痴呆之间的路径中起中介作用 。此外,研究还观察到 57 个变量之间存在一致的关联,这些关联或许揭示了与痴呆相关的疾病或风险因素之间有趣的路径 。
语言模型变量选择性能
IR 模型从 5505 个初始变量中成功选择了 344 个候选变量,这些变量被映射到 24 个痴呆风险因素类别,准确率达到 0.80。不过,该模型未能识别出与 “Education”“BMI” 等 6 个风险因素相关的变量。
在讨论部分,研究人员指出,像 ICD10 - F60 分类下的疾病,可能直接发展为痴呆,或者与痴呆存在共同的致病途径。同时,研究还发现神经系统疾病相关变量与痴呆的联系最为直接,这表明神经系统疾病在痴呆发病中可能起着更为关键的作用,或许可作为靶向干预的重点方向。另外,研究证实 chronological age 是痴呆的直接病因之一,但可能存在未观察到的混杂因素;而 phenotypic age 作为生物年龄的一种替代指标,虽然与痴呆的关联不太显著,但不受混杂因素影响,并且生物年龄可通过生活方式改变进行调整,在痴呆预防和管理方面具有重要价值。
研究中发现的一些关系还需要进一步研究验证,比如血液胆固醇水平与糖尿病之间的关联。而且,部分已确定的痴呆风险因素在因果网络中与痴呆的联系是间接的,这意味着它们影响痴呆的途径更为复杂,干预效果可能不太直接。还有一些已知风险因素未出现在痴呆的网络图中,可能是由于潜在的未观察到的混杂或中介作用、统计功效有限,或者数据插补引入的不确定性 。
FCI 算法虽然能够探索变量间的因果关系,但无法估计效应大小。后续研究可将效应估计方法与因果发现相结合,更全面地理解疾病机制。此外,研究在数据合并策略、NLP 模型优化等方面还有提升空间。例如,可改进合并策略以更好地处理组间和组内变异;探索使用更先进的 NLP 模型(如 BERT)或替代分词技术,提高文本表示的准确性。
总体而言,这项研究通过构建痴呆的因果网络,确定了多个与痴呆发病密切相关的风险因素,不仅加深了人们对痴呆发病机制的理解,还为痴呆的预防和管理提供了新的思路和方向。同时,研究中使用的 NLP 模型进行变量选择的方法,为医学研究提供了创新的应用范例,展现了先进技术在大规模数据分析中的巨大潜力 。