基于多变量纵向临床数据的阿尔茨海默病风险因素识别:时态模式挖掘的创新框架

【字体: 时间:2025年02月19日 来源:BMC Bioinformatics 2.9

编辑推荐:

  编辑推荐:本研究针对阿尔茨海默病(AD)早期预测难题,开发了临床时态模式挖掘框架(C-TPM),通过整合时态抽象、改进TPMiner算法和生存分析模型,在悉尼记忆与老龄化研究(MAS)和澳大利亚老年双胞胎研究(OATS)数据中实现最高0.87的C-Index,发现包含BMI、心血管风险等临床相关变量的预测模式,为缓慢进展疾病的早期预警提供新方法。

  在老龄化社会背景下,阿尔茨海默病(AD)已成为全球公共卫生挑战。这种神经退行性疾病在出现明显症状前已潜伏数十年,传统单时间点分析方法难以捕捉其动态发展轨迹。临床数据存在多源异构、采集间隔不规则、样本量有限等痛点,现有Apriori算法效率低下且依赖频繁模式,无法有效识别罕见但高风险的疾病特征模式。

澳大利亚新南威尔士大学计算机科学与工程学院联合医学院健康脑老化研究中心开发了临床时态模式挖掘框架(C-TPM)。该研究创新性地将流行病学的相对风险概念引入时态模式挖掘,改进TPMiner算法并整合生存分析,在悉尼记忆与老龄化研究(MAS)和澳大利亚老年双胞胎研究(OATS)两个真实世界队列中验证性能。论文发表于《BMC Bioinformatics》,为缓慢进展疾病的早期预测提供了可解释性强的新范式。

关键技术包括:1)基于百分位数和临床指南的时态抽象方法处理90种异构变量;2)改进TPMiner算法,新增风险剪枝、正常值剪枝和重复模式剪枝策略;3)采用5×5交叉验证构建生存分析模型(CoxPH/XGBoost等);4)可视化模块展示高风险模式。研究使用MAS(1037人,7波次)和OATS(623人,3波次)纵向数据。

方法学创新方面,C-TPM框架突破传统局限:通过端点表示法简化Allen时态关系,采用伪投影技术提升计算效率,引入相对风险阈值(1.5-2.0)和最小支持度阈值(1%-5%)平衡模式发现效率。多进程实现使算法在25秒内处理60+模式,较传统方法提升10倍速度。

实证研究结果显示:XGBTree模型在MAS数据中获得最高预测性能(Harrell's C-Index 0.75)。关键发现包括:1)精神活动总量(mental_total)下降是最显著预测因子,相对风险达5.49;2)社交健康(social_health≤3)和心血管风险(cv_risk<10%)构成高风险组合模式;3)嗅觉识别(BSIT_total<9)与BMI异常(25-29.9)的时序关联具有特异性。

模式可视化揭示:红色(极低值)和深蓝色(极高值)特征在AD患者中呈现规律性时序排列。例如"血压升高→认知评分下降→活动量减少"的三阶段模式在确诊前6-8年即可被检测。这些发现与《柳叶刀》委员会提出的12项可干预风险因素高度吻合。

结论部分强调:C-TPM首次实现将模式生长算法应用于真实世界临床数据建模,其优势体现在:1)处理不规则间隔采集的纵向数据;2)识别非频繁但临床相关模式;3)提供可解释的风险轨迹。提供的90变量截断值标准可推广至其他老年疾病研究。未来工作将优化缺失值处理算法并扩展趋势检测功能。

该研究的临床意义在于:通过量化"精神活动-社交-心血管"等可干预因素的时序关联,为AD一级预防提供精准靶点。方法论层面证明,结合流行病学指标与高效算法设计,能突破小样本数据分析瓶颈,这对帕金森病等缓慢进展神经疾病的早期预警具有重要参考价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号