多站点纵向研究的数据收集、管理与发布策略:来自ABCD数据分析、信息学与资源中心的经验教训

《Developmental Cognitive Neuroscience》:Strategies for Collection, Management, and Release of Data for Multi-Site Longitudinal Studies: Lessons from the ABCD Data Analysis, Informatics, & Resource Center

【字体: 时间:2026年06月09日 来源:Developmental Cognitive Neuroscience 4.9

编辑推荐:

  本文综合了青少年脑认知发展SM(ABCD)研究的数据分析、信息学与资源中心(DAIRC)十年来的经验,重点探讨了大型多站点、多模态纵向研究的数据收集、管理与发布策略。研究人员总结了两个主要领域的经验教训:首先,描述了内部流程的开发和持续改

  
本文综合了青少年脑认知发展SM(ABCD)研究的数据分析、信息学与资源中心(DAIRC)十年来的经验,重点探讨了大型多站点、多模态纵向研究的数据收集、管理与发布策略。研究人员总结了两个主要领域的经验教训:首先,描述了内部流程的开发和持续改进,包括认知工效学电子数据捕获工具的设计、数据接收和质量控制程序的改进,以及招募、保留和协议完整性指标的开发及相关工具,以支持基于结果的问责工作。研究人员进一步描述了结构和适应性如何增强DAIRC在应对COVID-19大流行、参与者流动和数据收集站点人员更替等挑战时的效率和韧性。其次,详细阐述了数据策展和组织标准的制定,以及支持开放科学、透明性和可重复性的共享基础设施,旨在降低ABCD数据资源的科学使用障碍、促进协作并推广最佳实践。最后,研究人员探讨了这些策略如何为未来的多站点纵向研究提供启示,为可扩展和可持续的数据中心运营提供框架。
#### 论文解读:多站点纵向研究数据收集、管理与发布策略——来自ABCD数据分析、信息学与资源中心(DAIRC)的经验

**研究背景、现存问题与研究动机**

青少年脑认知发展SM(ABCD)研究是美国规模最大的脑发育与儿童青少年健康长期追踪项目,涉及超过11,000名参与者,分布于21个地理分散的研究站点。作为一项多模态、多学科的协作研究,ABCD研究通过整合多样化的评估工具、创新技术和科学专长,旨在全面捕捉青少年发展的复杂性。然而,支撑如此大规模、多站点、纵向研究的数据基础设施面临诸多复杂挑战:数据来源多样(问卷调查、生物样本、神经影像、认知任务、可穿戴设备等),协议随时间动态演变(如COVID-19大流行期间远程评估的引入),参与者流动和站点人员更替频繁,以及数据质量控制和长期可用性的高标准要求。数据分析、信息学与资源中心(DAIRC)作为ABCD研究的核心数据中心,负责集中式数据捕获、处理、质量控制、存储、策展和公开发布,其目标是确保数据的高质量、可访问性和长期可用性。但过去十年中,DAIRC遭遇了技术、组织和行政层面的多重难题,包括平台性能瓶颈、数据入口错误、协议变更追溯困难、影像数据采集不均、遗传数据混杂结构以及外部数据链接不足等。为此,研究人员系统总结了DAIRC的经验教训,旨在为其他大规模纵向研究提供可推广的数据中心运营框架,该论文发表于《Developmental Cognitive Neuroscience》。

**主要技术方法**

研究人员依托ABCD研究队列(11,000+参与者、21个美国站点),采用了一系列关键技术与工具:使用REDCap(研究电子数据捕获)平台进行集中式数据采集,并开发双实例模型(开发/测试与生产环境分离);构建基于R Shiny框架的RA-Tools和Metrics仪表板,用于实时追踪访问完成度和协议完整性;采用FIONA(Flash I/O网络设备)服务器实现影像数据的标准化自动接收与协议合规检查;开发MINT(多模态图像标准化工具)创建ABCD特异性脑图谱,并运用FEMA(快速高效混合效应算法)进行全脑体素级纵向分析;通过内部票务系统和生命周期追踪数据库实施版本控制与变更管理;同时发布ABCDe评分包和NBDCtools等开源R包,支持可重复的数据工作流。

**研究结果**

**1. A. 内部流程持续改进以确保最高数据质量**

- **1.1 数据捕获(Data Capture)**:研究人员通过优化REDCap平台,采用分支逻辑和即时值验证,减少认知负荷和输入错误。针对性能压力,将高容量外部数据集卸载至REDCap外存储,并建立双实例模型(分离开发与生产环境)。自2019年修订系统启动至2025年10月,协议经历超过800次修订和40,000次数据字典编辑,确保变更透明可追溯。同时,研究人员构建统一安全Web应用,整合QR码扫描、单点登录(含双因素认证)等功能,减轻“平台疲劳”。
- **1.2 操作工具(Operational Tools)**:研究人员开发了RA-Tools和Metrics两个基于R Shiny的交互式仪表板。RA-Tools支持站点级别的访问安排、规划与追踪(如可穿戴设备和中期随访调查),Metrics仪表板则提供访问完成状态、协议完整性(按元素和按事件)、流失模式、地址覆盖率及资助机构定义的绩效指标可视化。后台ETL管道每日夜间更新指标,采用标准化分类算法(如血液采集需包含同意、日期、条码和实验室结果;T1 MRI需扫描完成、数据接收、协议合规及无缺失DICOM)确保可比性。系统还集成中央票务和成员管理平台,将账户创建时间从数周缩短至2个工作日。
- **1.3 灵活性设计(Designing for Flexibility)**:研究人员针对COVID-19大流行快速建立远程评估基础设施(视频会议、参与者自有设备认知工具),并追踪评估设置以控制分析差异。协议变更(如子研究引入、问题表述改进)通过票务系统和REDCap变更追踪应用详细记录,确保数据策展和文档的长期一致性。
- **1.4 表格数据质量控制(Data Quality Control for Tabulated Data)**:研究人员将新数据即时转换为发布格式(含摘要评分计算和外部数据集成),取代早期月度PDF报告。内部DEAP(数据探索与分析门户)供主题专家(SME)预发布查看变量级统计、创建交互式可视化或下载数据,实现在大规模影响前发现并解决问题。
- **1.5 影像数据接收、质量控制与处理(Imaging Data Ingestion, QC, and Processing)**:影像数据通过本地FIONA服务器进行DICOM系列完整性和参数合规检查后传输至DAIRC。自动化QC指标(如结构MRI的全局强度和SNR、扩散MRI的运动和拟合优度、功能MRI的运动和时域SNR)加上技师视觉复查(标准化蒙太奇和受控词汇标注伪影),并采用统计学习亚采样方法(多变量逻辑回归和贝叶斯分类器)优先审核高风险扫描。最终通过后处理QC(含统计学习亚采样和数值评级)生成模态特异性包含标志,数据以容器化流程(Docker/Singularity)和BIDS格式发布。
- **1.6 遗传数据接收与质量控制(Genetic Data Ingestion and QC)**:遗传数据以.CEL、.ARR和PLINK格式接收,通过标准PLINK命令与新批次合并。利用ABCD双胞胎亚样本(近四分之一队列)验证家庭关系,检测样本标签错误。自Release 5.0起,改用GENESIS框架(PC-AiR和PC-Relate)处理高亲缘性和祖先异质性,更准确分离祖先与亲缘信号。
- **1.7 外部链接数据整合(Integration of Linked External Data)**:研究人员修订地址收集协议,引入视觉地图、时间线和LexisNexis记录辅助参与者回忆,使至少80%完整的居住史参与者比例增加。教育史方面改进动态链接至斯坦福教育数据档案(SEDA),并添加退学、跳级、居家学习等关键属性,实现纵向分析。
- **1.8 集中式数据管理与版本控制(Centralized Data Management and Version Control)**:基于“单一事实来源”原则,数据分为原始/传入、暂存、策展、发布四层。每个协议元素附有生命周期代码(如生物样本:采集→运输→接收→结果返回→导入),系统自动记录时间戳和标识符。所有层次通过GitHub Actions和Apache Airflow编排,集成CI过程(模式检查、参照完整性测试、单元测试),形成DevOps风格框架。

**2. B. 数据策展与向外部用户发布的技术方案开发**

- **2.1 数据策展与发布(Data Curation and Release)**:研究人员实施年度主要发布和约6个月后的补丁发布。自2023年起启动“再策展”行动,系统性地回顾每个评估域,解决“策展债务”(早期策展不足导致的可访问性和可重复性问题)。Release 6.0引入标准化变量命名约定(编码评估域、数据源和测度)、增强元数据(单位、数据类型、标准缺失码)以及一致的管理字段。
- **2.2 数据探索与分析门户(DEAP)**:DEAP提供基于Web的用户界面,支持交互式本体探浏览、变量级元数据和描述统计。经认证用户可创建、存储和共享自定义数据集,支持多种输出格式(CSV、Parquet、Stata、SPSS、R等)。探索模块允许用户创建可视化(散点图、汇总表)并应用复杂过滤和变量转换。分析模块集成FEMA算法,支持线性混合效应模型、协变量转换、交互项等,结果以体素脑视图、表面视图或回归表呈现。代码空间(Code Spaces)基于Open OnDemand,提供Jupyter Notebook、RStudio和VS Code编程环境。所有对象(数据集、探索、分析)均可共享和锁定,确保可重复性和透明性。
- **2.3 FEMA与MINT用于可扩展的多模态影像分析**:MINT利用11通道扩散和结构MRI数据生成ABCD特异性脑图谱。FEMA和FEMA-Long框架实现高效的全脑体素、顶点、连接组级纵向混合效应分析,支持样条和未结构化协方差建模,并可直接与MINT配准的拼接数据集成,用于基因组关联研究(GWAS)。
- **2.4 ABC评分包与NBDCtools用于可重复数据工作流**:ABC评分包将非专有摘要评分算法整合为版本化R包(如v6.0.0对应Release 6.0),支持审计和重现。NBDCtools提供基于元数据的函数`create_dataset()`,根据BIDS结构输入构建分析就绪数据集,确保转换透明和可重复。
- **2.5 数据文档(Data Documentation)**:研究人员以动态文档网站取代静态发布说明,提供协议、队列、数据质量警告及最新更新。网站与DEAP和ABC评分包紧密集成,采用透明版本化方案(每月更新),所有历史版本可查看和引用。

**讨论与结论**

研究人员在“In review”部分总结道:过去十年中,DAIRC与ABCD研究共同演进。为如此大规模的研究构建和维护基础设施需要持续的问题解决、适应性调整以及与站点、工作组和数据用户的积极响应合作。本文描述的工具和流程代表了对反馈的持续回应,而非终点;这证明了DAIRC将随研究的继续而持续演进。其他研究可利用ABCD DAIRC的经验教训,加速发展高效可靠的处理流程。结论指出:通过分享这些经验,研究人员旨在为其他大规模纵向合作研究提供实用指导,包括内部流程的持续改进(如认知工效学数据捕获工具、操作仪表板和灵活设计)以及数据策展与发布的技术标准(如DEAP门户、FEMA-MINT分析框架和开源包),从而降低科学使用障碍,促进开放科学与可重复性,为可扩展、可持续的数据中心运营提供了框架。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号