多站点纵向研究的数据收集、管理与发布策略：来自ABCD数据分析、信息学与资源中心的经验教训

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Developmental Cognitive Neuroscience》：Strategies for Collection, Management, and Release of Data for Multi-Site Longitudinal Studies: Lessons from the ABCD Data Analysis, Informatics, & Resource Center

【字体：大中小】 时间：2026年06月09日 来源：Developmental Cognitive Neuroscience 4.9

编辑推荐：

　　本文综合了青少年脑认知发展^SM（ABCD）研究的数据分析、信息学与资源中心（DAIRC）十年来的经验，重点探讨了大型多站点、多模态纵向研究的数据收集、管理与发布策略。研究人员总结了两个主要领域的经验教训：首先，描述了内部流程的开发和持续改

本文综合了青少年脑认知发展^SM（ABCD）研究的数据分析、信息学与资源中心（DAIRC）十年来的经验，重点探讨了大型多站点、多模态纵向研究的数据收集、管理与发布策略。研究人员总结了两个主要领域的经验教训：首先，描述了内部流程的开发和持续改进，包括认知工效学电子数据捕获工具的设计、数据接收和质量控制程序的改进，以及招募、保留和协议完整性指标的开发及相关工具，以支持基于结果的问责工作。研究人员进一步描述了结构和适应性如何增强DAIRC在应对COVID-19大流行、参与者流动和数据收集站点人员更替等挑战时的效率和韧性。其次，详细阐述了数据策展和组织标准的制定，以及支持开放科学、透明性和可重复性的共享基础设施，旨在降低ABCD数据资源的科学使用障碍、促进协作并推广最佳实践。最后，研究人员探讨了这些策略如何为未来的多站点纵向研究提供启示，为可扩展和可持续的数据中心运营提供框架。

#### 论文解读：多站点纵向研究数据收集、管理与发布策略——来自ABCD数据分析、信息学与资源中心（DAIRC）的经验

**研究背景、现存问题与研究动机**

青少年脑认知发展^SM（ABCD）研究是美国规模最大的脑发育与儿童青少年健康长期追踪项目，涉及超过11,000名参与者，分布于21个地理分散的研究站点。作为一项多模态、多学科的协作研究，ABCD研究通过整合多样化的评估工具、创新技术和科学专长，旨在全面捕捉青少年发展的复杂性。然而，支撑如此大规模、多站点、纵向研究的数据基础设施面临诸多复杂挑战：数据来源多样（问卷调查、生物样本、神经影像、认知任务、可穿戴设备等），协议随时间动态演变（如COVID-19大流行期间远程评估的引入），参与者流动和站点人员更替频繁，以及数据质量控制和长期可用性的高标准要求。数据分析、信息学与资源中心（DAIRC）作为ABCD研究的核心数据中心，负责集中式数据捕获、处理、质量控制、存储、策展和公开发布，其目标是确保数据的高质量、可访问性和长期可用性。但过去十年中，DAIRC遭遇了技术、组织和行政层面的多重难题，包括平台性能瓶颈、数据入口错误、协议变更追溯困难、影像数据采集不均、遗传数据混杂结构以及外部数据链接不足等。为此，研究人员系统总结了DAIRC的经验教训，旨在为其他大规模纵向研究提供可推广的数据中心运营框架，该论文发表于《Developmental Cognitive Neuroscience》。

**主要技术方法**

研究人员依托ABCD研究队列（11,000+参与者、21个美国站点），采用了一系列关键技术与工具：使用REDCap（研究电子数据捕获）平台进行集中式数据采集，并开发双实例模型（开发/测试与生产环境分离）；构建基于R Shiny框架的RA-Tools和Metrics仪表板，用于实时追踪访问完成度和协议完整性；采用FIONA（Flash I/O网络设备）服务器实现影像数据的标准化自动接收与协议合规检查；开发MINT（多模态图像标准化工具）创建ABCD特异性脑图谱，并运用FEMA（快速高效混合效应算法）进行全脑体素级纵向分析；通过内部票务系统和生命周期追踪数据库实施版本控制与变更管理；同时发布ABCDe评分包和NBDCtools等开源R包，支持可重复的数据工作流。

**研究结果**

**1. A. 内部流程持续改进以确保最高数据质量**

- **1.1 数据捕获（Data Capture）**：研究人员通过优化REDCap平台，采用分支逻辑和即时值验证，减少认知负荷和输入错误。针对性能压力，将高容量外部数据集卸载至REDCap外存储，并建立双实例模型（分离开发与生产环境）。自2019年修订系统启动至2025年10月，协议经历超过800次修订和40,000次数据字典编辑，确保变更透明可追溯。同时，研究人员构建统一安全Web应用，整合QR码扫描、单点登录（含双因素认证）等功能，减轻“平台疲劳”。
- **1.2 操作工具（Operational Tools）**：研究人员开发了RA-Tools和Metrics两个基于R Shiny的交互式仪表板。RA-Tools支持站点级别的访问安排、规划与追踪（如可穿戴设备和中期随访调查），Metrics仪表板则提供访问完成状态、协议完整性（按元素和按事件）、流失模式、地址覆盖率及资助机构定义的绩效指标可视化。后台ETL管道每日夜间更新指标，采用标准化分类算法（如血液采集需包含同意、日期、条码和实验室结果；T1 MRI需扫描完成、数据接收、协议合规及无缺失DICOM）确保可比性。系统还集成中央票务和成员管理平台，将账户创建时间从数周缩短至2个工作日。
- **1.3 灵活性设计（Designing for Flexibility）**：研究人员针对COVID-19大流行快速建立远程评估基础设施（视频会议、参与者自有设备认知工具），并追踪评估设置以控制分析差异。协议变更（如子研究引入、问题表述改进）通过票务系统和REDCap变更追踪应用详细记录，确保数据策展和文档的长期一致性。
- **1.4 表格数据质量控制（Data Quality Control for Tabulated Data）**：研究人员将新数据即时转换为发布格式（含摘要评分计算和外部数据集成），取代早期月度PDF报告。内部DEAP（数据探索与分析门户）供主题专家（SME）预发布查看变量级统计、创建交互式可视化或下载数据，实现在大规模影响前发现并解决问题。
- **1.5 影像数据接收、质量控制与处理（Imaging Data Ingestion, QC, and Processing）**：影像数据通过本地FIONA服务器进行DICOM系列完整性和参数合规检查后传输至DAIRC。自动化QC指标（如结构MRI的全局强度和SNR、扩散MRI的运动和拟合优度、功能MRI的运动和时域SNR）加上技师视觉复查（标准化蒙太奇和受控词汇标注伪影），并采用统计学习亚采样方法（多变量逻辑回归和贝叶斯分类器）优先审核高风险扫描。最终通过后处理QC（含统计学习亚采样和数值评级）生成模态特异性包含标志，数据以容器化流程（Docker/Singularity）和BIDS格式发布。
- **1.6 遗传数据接收与质量控制（Genetic Data Ingestion and QC）**：遗传数据以.CEL、.ARR和PLINK格式接收，通过标准PLINK命令与新批次合并。利用ABCD双胞胎亚样本（近四分之一队列）验证家庭关系，检测样本标签错误。自Release 5.0起，改用GENESIS框架（PC-AiR和PC-Relate）处理高亲缘性和祖先异质性，更准确分离祖先与亲缘信号。
- **1.7 外部链接数据整合（Integration of Linked External Data）**：研究人员修订地址收集协议，引入视觉地图、时间线和LexisNexis记录辅助参与者回忆，使至少80%完整的居住史参与者比例增加。教育史方面改进动态链接至斯坦福教育数据档案（SEDA），并添加退学、跳级、居家学习等关键属性，实现纵向分析。
- **1.8 集中式数据管理与版本控制（Centralized Data Management and Version Control）**：基于“单一事实来源”原则，数据分为原始/传入、暂存、策展、发布四层。每个协议元素附有生命周期代码（如生物样本：采集→运输→接收→结果返回→导入），系统自动记录时间戳和标识符。所有层次通过GitHub Actions和Apache Airflow编排，集成CI过程（模式检查、参照完整性测试、单元测试），形成DevOps风格框架。

**2. B. 数据策展与向外部用户发布的技术方案开发**

- **2.1 数据策展与发布（Data Curation and Release）**：研究人员实施年度主要发布和约6个月后的补丁发布。自2023年起启动“再策展”行动，系统性地回顾每个评估域，解决“策展债务”（早期策展不足导致的可访问性和可重复性问题）。Release 6.0引入标准化变量命名约定（编码评估域、数据源和测度）、增强元数据（单位、数据类型、标准缺失码）以及一致的管理字段。
- **2.2 数据探索与分析门户（DEAP）**：DEAP提供基于Web的用户界面，支持交互式本体探浏览、变量级元数据和描述统计。经认证用户可创建、存储和共享自定义数据集，支持多种输出格式（CSV、Parquet、Stata、SPSS、R等）。探索模块允许用户创建可视化（散点图、汇总表）并应用复杂过滤和变量转换。分析模块集成FEMA算法，支持线性混合效应模型、协变量转换、交互项等，结果以体素脑视图、表面视图或回归表呈现。代码空间（Code Spaces）基于Open OnDemand，提供Jupyter Notebook、RStudio和VS Code编程环境。所有对象（数据集、探索、分析）均可共享和锁定，确保可重复性和透明性。
- **2.3 FEMA与MINT用于可扩展的多模态影像分析**：MINT利用11通道扩散和结构MRI数据生成ABCD特异性脑图谱。FEMA和FEMA-Long框架实现高效的全脑体素、顶点、连接组级纵向混合效应分析，支持样条和未结构化协方差建模，并可直接与MINT配准的拼接数据集成，用于基因组关联研究（GWAS）。
- **2.4 ABC评分包与NBDCtools用于可重复数据工作流**：ABC评分包将非专有摘要评分算法整合为版本化R包（如v6.0.0对应Release 6.0），支持审计和重现。NBDCtools提供基于元数据的函数`create_dataset()`，根据BIDS结构输入构建分析就绪数据集，确保转换透明和可重复。
- **2.5 数据文档（Data Documentation）**：研究人员以动态文档网站取代静态发布说明，提供协议、队列、数据质量警告及最新更新。网站与DEAP和ABC评分包紧密集成，采用透明版本化方案（每月更新），所有历史版本可查看和引用。

**讨论与结论**

研究人员在“In review”部分总结道：过去十年中，DAIRC与ABCD研究共同演进。为如此大规模的研究构建和维护基础设施需要持续的问题解决、适应性调整以及与站点、工作组和数据用户的积极响应合作。本文描述的工具和流程代表了对反馈的持续回应，而非终点；这证明了DAIRC将随研究的继续而持续演进。其他研究可利用ABCD DAIRC的经验教训，加速发展高效可靠的处理流程。结论指出：通过分享这些经验，研究人员旨在为其他大规模纵向合作研究提供实用指导，包括内部流程的持续改进（如认知工效学数据捕获工具、操作仪表板和灵活设计）以及数据策展与发布的技术标准（如DEAP门户、FEMA-MINT分析框架和开源包），从而降低科学使用障碍，促进开放科学与可重复性，为可扩展、可持续的数据中心运营提供了框架。

联系信箱：

粤ICP备09063491号

热点排行