BRAINTEASER数据集:面向ALS与MS疾病进展建模的多模态临床、可穿戴设备与环境数据资源
《Scientific Data》:The BRAINTEASER Datasets: Clinical, Wearable and Environmental Data for ALS & MS Progression Modeling
【字体:
大
中
小
】
时间:2025年11月22日
来源:Scientific Data 6.9
编辑推荐:
本刊推荐:为解决肌萎缩侧索硬化(ALS)和多发性硬化(MS)疾病进展预测中数据稀缺的瓶颈,BRAINTEASER研究团队整合了来自意大利、葡萄牙和西班牙四家医疗机构的真实世界数据,构建了包含临床、可穿戴设备和环境数据的多模态数据集。该数据集涵盖2,290例ALS患者和723例MS患者的随访信息,通过iDPP@CLEF挑战赛验证了其在AI预测模型开发中的实用性,为开发个性化疾病进展预测工具提供了重要资源支撑。
在神经退行性疾病研究领域,肌萎缩侧索硬化(ALS)和多发性硬化(MS)是两种具有高度异质性的难治性疾病。ALS以快速进行性的运动神经元退变为特征,患者平均生存期仅3-5年;MS则表现为复发-缓解与慢性进展相交错的复杂病程。这两种疾病共同面临着疾病进展难以预测的临床困境——医生难以精准判断患者何时需要呼吸支持(如非侵入性机械通气NIV)或营养干预(如经皮内镜胃造瘘PEG),也无法准确预测MS患者的复发风险或残疾程度(通过扩展残疾状态量表EDSS评估)的恶化时间。这种不确定性不仅影响治疗决策的时效性,更给患者和照护者带来沉重的心理负担。
传统基于临床试验的数据集(如PRO-ACT)存在随访期短、入组标准严格导致人群代表性有限等缺陷,而现有MS数据集多聚焦影像学分析,缺乏纵向临床结局数据。更关键的是,人工智能(AI)疾病预测模型的开发亟需融合多维度信息(包括环境因素和日常生理参数)的真实世界数据支持。正是为了破解这一难题,由欧盟地平线2020计划资助的BRAINTEASER项目应运而生,其研究成果最终以数据描述的形式发表于《Scientific Data》。
研究团队通过系统性的数据收集与整合,构建了四个核心数据集:两个ALS数据集(分别包含2,204例回顾性患者和86例前瞻性患者)和一个MS数据集(723例患者),其中MS数据集还特别包含环境数据的子集(280例患者)。这些数据源自意大利都灵大学(UNITO)、里斯本分子医学研究所(iMM)等临床中心的真实诊疗记录,并经过严格的质量控制。所有患者数据均进行匿名化处理,关键日期转换为相对时间,居住地信息泛化为城市/城镇/农村三类,基因突变信息(如C9orf72)仅保留二元标识,最大限度保护隐私的同时确保科研可用性。
技术方法层面,研究团队采用多中心协作模式,通过标准化流程整合异构临床数据。对于回顾性数据,从原始登记系统(如意大利Piemonte和Valle d'Aosta地区ALS登记系统PARALS)提取人口统计学、病史、ALSFRS-R(ALS功能评定量表修订版)评分、EDSS评分等信息;环境数据通过欧洲空气质量门户和哥白尼E-OBS数据集获取,包括PM2.5、PM10等污染物浓度及气象指标,并与患者居住地最近监测站匹配。前瞻性数据则通过Garmin VivoActive 4智能手表、Atmotube PRO个人空气监测仪和定制移动应用持续收集生理参数与自我评估数据。数据质量控制采用保守策略,剔除日期逻辑错误、关键变量缺失的记录,并通过SHACL(形状约束语言)对RDF格式的知识图谱进行规范性验证。
回顾性ALS数据集最终纳入1,854例来自UNITO和705例来自iMM的患者,每位患者平均拥有5次ALSFRS-R记录。数据过滤过程通过PRISMA流程图清晰展示:UNITO原始3,257例患者中因缺少ALSFRS-R记录排除1,260例,因事件时间顺序错误排除143例;iMM原始1,562例患者中因类似质量问题仅保留705例。MS数据质量较高,UNITO的750例患者中97%(725例)符合标准,Fondazione Mondino的1,103例患者中97%(1,067例)入选。所有患者需至少具备6个月随访数据,且关键医疗事件(如NIV、PEG)必须发生在首次就诊之后。
前瞻性ALS数据集通过多中心协作(里斯本、都灵、马德里)招募86例患者,采用多模态监测体系:临床ALSFRS-R评估每3个月由医生完成,患者每月通过移动应用自评ALSFRS-R,智能手表持续采集心率、呼吸频率、夜间血氧饱和度等90项生理指标,日均数据量达254天。该设计首次实现 clinician-assessed(临床评估)与patient-reported(患者报告)结果的同步对比,为研究评估者间差异提供独特资源。
基于完整数据集衍生出8个任务特定数据集,对应iDPP@CLEF挑战赛的预测任务。ALS任务包括预测NIV需求、PEG需求及死亡时间;MS任务涵盖EDSS恶化(采用阈值法和变化值法两种定义)及复发预测。数据集按80%/20%比例划分训练集与测试集,其中回顾性ALS数据按结局时间分层抽样,确保人口学和临床特征均衡。
通过连续三年举办的iDPP@CLEF挑战赛,数据集经受大规模实践检验。2022年首届赛事吸引5国团队参与,成功预测ALS患者医疗干预需求,并发现48例失访患者数据问题,促使增加"至少两次ALSFRS-R记录"的过滤条件。2023年赛事纳入环境数据,证实污染物暴露与疾病进展的关联性。2024年针对前瞻性数据的分析显示,临床ALSFRS-R预测性能显著优于患者自评数据(AUC最高达92.4%),提示专业评估的稳定性优势。MS赛道同样表现良好,环境数据子集首次证实每周粒度污染数据可提升复发预测精度。
数据集通过Zenodo仓库公开,采用分级访问控制:用户需签署数据使用协议(DUA),承诺不尝试去匿名化。数据以CSV和RDF两种格式提供,后者遵循BRAINTEASER本体论(BTO),该本体论整合患者生命周期事件,符合FAIR原则(可查找、可访问、可互操作、可重用)和OBO(开放生物医学本体)设计规范。所有研究方案均通过各中心伦理委员会审批(如里斯本医学学术中心162-2021号协议),严格遵循《赫尔辛基宣言》和欧盟《通用数据保护条例》(GDPR)。
本研究创建的BRAINTEASER数据集突破了神经退行性疾病研究的数据瓶颈,其核心价值体现在三个方面:首先,它首次系统整合临床、可穿戴设备和环境暴露多维度数据,为探索基因-环境-临床表现交互作用提供可能;其次,基于真实诊疗场景的数据结构更贴近临床实际,有望提升AI预测模型的泛化能力;最后,通过年度iDPP@CLEF挑战赛建立的开放评估框架,促进了研究结果的可靠比较与方法学优化。尽管存在随访时间间隔不均、传感器数据缺失等现实世界数据固有局限,但正是这些"不完美"赋予了数据更高的生态效度。作为目前最大的公开ALS/MS多模态数据集之一,BRAINTEASER不仅为开发个性化预后工具奠定基础,其数据匿名化策略和本体论构建经验更为敏感医疗数据的共享利用提供了重要范式。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号