阅读障碍神经影像数据共享与分析综合平台:推动阅读发展神经生物学研究的突破
【字体:
大
中
小
】
时间:2025年10月09日
来源:Neuroinformatics 3.1
编辑推荐:
本期推荐一项针对阅读障碍神经机制研究的重要基础设施工作。研究团队开发了Dyslexia Data Consortium (DDC)神经影像数据共享平台,解决了多中心阅读障碍研究中数据孤岛、标准化不足等关键问题。该平台集成BIDS标准化数据管理、高性能计算分析和深度学习质量控制功能,支持跨数据集整合分析与大规模计算,为阅读发展和阅读障碍的神经生物学研究提供了重要基础设施支撑。
在探索阅读障碍神经机制的道路上,研究人员一直面临着一个重大挑战:神经影像研究通常依赖于小样本数据集,且这些数据往往分散在不同研究机构或数据存储库中,形成了难以互通的数据孤岛。这种碎片化状态严重阻碍了研究结果的验证和复制,也限制了我们对阅读发展神经生物学的深入理解。阅读障碍作为一种复杂的神经发育障碍,影响着5%至17%的美国人口,其研究需要充分考虑年龄、语言背景和认知特征等多种因素的影响,这就要求研究必须基于足够大且定义明确的参与者群体才能获得足够的实验效力。
传统的通用型数据存储库如ABCD研究和UK Biobank虽然提供了大量参与者数据,但对阅读和语言能力的表征有限;而OSF和Zenodo等通用回顾性存储库虽然支持数据存储和共享,但缺乏专门针对阅读相关研究的集中化、标准化资源。与此形成对比的是,阿尔茨海默病神经影像倡议(ADNI)和自闭症脑成像数据交换(ABIDE)等疾病特异性存储库的成功,为阅读障碍领域提供了可借鉴的模型。
为了解决这一迫切需求,研究团队开发了Dyslexia Data Consortium (DDC)存储库平台,专门用于共享阅读发展和障碍相关的神经影像研究数据。该平台旨在包容广泛的人口统计学和行为特征,重点关注与阅读发展和障碍相关的数据,并通过数据协调化技术促进跨数据集的行为、临床和人口统计学测量的整合与分析。
该平台采用Django框架开发,具有强大的网络访问功能,使研究人员无需深厚技术背景即可通过简单界面完成MRI文件上传、下载和数据质量检查。平台后端集成了多种计算资源,包括MATLAB、JupyterHub、PyTorch和克莱姆森大学的Palmetto高性能计算集群(HPC),为用户提供了强大的分析工具,消除了本地搭建复杂计算环境的需求。
平台系统架构支持四大核心功能:数据共享、数据下载、数据指标以及数据质量与隐私保护。数据共享功能采用多服务管道设计,确保用户上传的数据符合Brain Imaging Data Structure (BIDS)标准,该标准通过标准化目录结构和文件命名约定来组织神经影像及相关行为数据,增强了人类可读性,支持现代神经影像工具的自动化处理,并促进了研究间的协调。
数据共享过程包含四个关键步骤:数据上传、数据标准化、数据验证和未匹配变量注释。在上传阶段,界面允许用户以多种文件格式上传图像数据、行为数据和人口统计学数据,支持通过zip/tar文件批量上传多个图像或数据集。平台采用线程池多线程处理大型神经影像文件的解压和存储,通过异步处理避免阻塞主线程,确保用户工作流的顺畅进行。
数据标准化服务解决了神经影像数据集来源多样、命名规范不统一带来的挑战。平台采用Rabin-Karp字符串匹配算法,向贡献者提供直观的映射界面,建议将上传变量与预定义数据库变量进行匹配。这一协调过程显著减少了研究人员手动变量匹配所需的时间和精力,确保数据遵循一致的定义和命名规范。对于数据库中不存在的新变量,用户可以提议新变量名,这些建议变量会自动提交给管理员审核,确保数据库能够随着研究方法和神经影像模态的发展保持相关性和灵活性。
数据验证服务通过生成电子表格列出上传变量及其映射关系,供用户审查确认。基于网络的用户界面将空值或错误单元格标红显示,帮助用户快速识别和纠正问题。平台集成了浏览器内电子表格编辑器和自动保存功能,用户无需下载、修改和重新上传文件即可完成数据修正。
未匹配变量注释服务则识别在数据标准化阶段未能与存储库变量匹配的变量,并在电子表格中显示,提示用户提供详细信息。这些描述经过管理员手动验证,确保所有数据符合预定标准,促进不同研究间的一致性分析。
在图像处理和数据指标方面,平台自动计算图像数据指标,帮助用户评估数据质量并支持研究。这些指标的选择基于神经影像学研究证据,这些研究显示了阅读障碍个体一致的结构和功能改变。例如,神经影像学研究揭示了 superior temporal sulcus (STS)和 orbitofrontal cortex (OFC)的结构差异——基于现有文献的荟萃分析和存储库中多站点数据的直接分析发现,阅读障碍患者相比对照组参与者具有较低的灰质体积。
平台通过仪表板工具显示所有存储数据集的指标,允许用户将自己的数据集变量值与平台整体数据分布进行可视化对比。仪表板为每个指标生成直方图,显示最小值、最大值、用户观测值和数据集的平均值,有助于识别趋势、异常和数据模式,促进更加知情的数据使用。
针对神经影像数据集处理所需的显著计算资源,DDC平台利用克莱姆森大学的Palmetto HPC(高性能计算集群),使研究人员能够高效处理大量数据。该集群计算基础设施允许研究人员并行处理多个数据集,提高生产力。平台在Palmetto HPC上使用SPM25和CAT12等成熟神经影像工具运行标准化数据处理流程。所有T1加权图像使用测地线射击配准方法空间标准化到MNI152NLin2009cAsym模板空间。皮质厚度测量从Human Connectome Project MMP1图谱的兴趣区域收集,同时还从与阅读障碍持续相关的大脑区域收集灰质体积数据,以促进研究复制。
Palmetto HPC使用SLURM(Simple Linux Utility for Resource Management)作业调度系统来管理和优化计算任务。专有队列为作业分配确保计算需求得到高效满足。当作业提交时,SLURM评估可用资源并根据优先级和资源可用性分派队列中的下一个作业。作业在DDC平台上创建,转发到HPC上的专用队列,并由计算节点按先进先出原则执行。这种结构化作业调度过程确保了大数据集的高效处理,支持可扩展的研究工作。图像处理软件已经容器化,为神经影像数据处理提供稳定环境,不受软件更新和Palmetto HPC定期维护的影响。
数据下载功能允许用户下载原始图像、处理后的图像(如分割的灰质图像)和前述数据指标。公开数据集和私有数据集的下载功能略有不同:公开数据集包含选择公开共享数据的用户数据,仅限签署数据使用协议(DUA)的用户访问;私有数据集包含用户上传并在平台上处理的所有数据,除非明确共享,否则仅限该特定用户访问。
下载界面包含可定制筛选选项,允许用户根据年龄等特定条件精炼选择。这些筛选器有助于减小下载大小并聚焦相关数据。默认情况下,所有主要和次要神经影像数据都包含在下载文件中,但用户可以根据需要更具体地选择要下载的次要图像。主要数据指贡献者提供的原始原始数据,特别是在图像处理环境中,主要数据(T1加权图像)经过处理生成通常用于统计分析的数据(如分割的灰质图像)。次要数据是在T1加权图像处理过程中生成的,例如生成原生空间灰质或标准化调制灰质体积或皮质厚度数据。
平台异步处理下载请求,通过RabbitMQ与Celery(分布式任务队列)结合的后端进程管理下载请求。这种组合支持大规模数据的高效处理。文件请求后,RabbitMQ将处理任务放入队列,Celery工作线程或后台进程通过从队列中拉取任务并异步处理它们。任务调度器按先进先出原则处理这些请求,准备下载文件。用户等待请求完成的同时可以与平台界面的其他部分交互。数据准备完成后,用户将收到包含所请求文件链接的电子邮件。RabbitMQ和Celery设置可以随着数据需求的增长而扩展——随着下载请求数量的增加,将添加更多Celery工作线程来处理增加的负载,确保系统即使在高数据量下也能持续高效运行。
数据隐私保护是平台的重要考量。共享数据的去标识化对于保护参与者隐私和最小化重新识别风险至关重要。原始MRI扫描可能包含可渲染可视化面部结构的体素,这可能带来参与者识别风险,阻碍贡献者和机构共享数据。适当的去标识化过程确保在共享前去除敏感面部特征,保护参与者隐私,使开放访问存储库中的数据共享更加安全。
由于MRI扫描的变异性(包括大小、形状、对比度和方向的差异),这一过程可能具有挑战性。共享数据的研究人员和共享平台的管理员通常需要视觉检查图像以验证共享数据是否经过适当去标识化。执行这种手动检查被视为确保数据隐私的额外负担。为解决耗时的人工检查 skull-stripped MRI图像的问题,平台集成了一种深度学习模型,评估 skull-stripping 保留可识别面部特征的概率。如果模型检测到去标识化失败的可能性较高,则标记图像以供进一步审查。平台管理员也会收到任何可能重新识别风险的通知,以便与贡献者沟通和/或移除数据。这种深度学习模型作为高效过滤器,标记需要额外关注的图像,使研究人员能够专注于有问题的扫描,而非人工检查每个图像。
平台还集成FSL去面部工具,这是一种广泛使用的神经影像软件,用于改进 improperly defaced skull-stripped 图像。使用不同侵蚀半径值(从保守到更积极去面部)渲染多个改进后的图像版本。这些校正后的图像通过交互界面呈现给研究人员,使他们能够视觉评估并选择在满足隐私要求的同时最佳保留关键解剖特征的版本。
数据质量评估对于确保多站点回顾性数据存储库的可靠性和用户信心至关重要。平台包含以下功能来促进数据共享,同时为贡献者提供数据质量措施,并允许数据接收者控制或排除具有较低质量数据的案例。
数据完整性方面,图像 skull-stripping 和去面部方法通常依赖于侵蚀等操作,其中侵蚀半径参数决定组织移除的程度。然而,为成人图像开发的默认去面部参数并非对每个图像都有效,可能会移除感兴趣的组织。因此,数据去标识化方法可能引入影响图像处理和前述大脑结构指标收集的数据质量问题。平台开发了一种深度学习方法来评估大脑组织体素是否被错误移除的可能性。该模型评估图像中大脑组织体素被移除的可能性。基于较高概率值,如果系统标记图像可能存在大脑组织损失,用户可以采取多种措施:1)如果有显著体素损失,从数据库中移除有问题的图像;2)上传新图像;3)如果仅检测到轻微损失,保留图像;或4)选择替代的 skull-stripped 版本。这种迭代方法最小化数据损失,提高跨数据集的数据处理一致性。
不良的空间标准化是另一个常见的数据质量问题,可能导致受试者间的错位,损害组级分析的准确性。空间标准化涉及将个体脑图像与标准化模板图像对齐,以促进跨参与者 voxel-wise 脑区比较。大脑形状或大小的差异使得自动标准化算法难以准确将大脑与标准模板对齐,即使这些算法通过 diffeomorphic normalization 方法已经显著改进。除了个体变异性外,非典型形态(如先天畸形)可能破坏正常解剖结构,使标准化过程难以将个体大脑与模板正确对齐。
除了非典型形态,图像采集伪影和运动伪影也可能损害图像处理方法的质量和精度,这可能反映在不良的空间标准化中。识别空间标准化不良案例的一种方法是检查它们与图像模板的结构相似性。平台将空间标准化的3D图像和模板图像转换为体素值的单个向量进行相关分析,提供相似性度量。与较大样本相比,具有较低平均相似性或Pearson相关的图像被识别为空间标准化和/或灰质分割不良。这种方法有助于识别在数据分析前应排除或至少审查的图像。这种图像相似性度量与使用CAT12工具箱生成的图像质量评级度量结合使用,后者提供图像对比度的度量——当存在任何运动伪影时可能较低,并影响图像分割的质量。因此,平台包含可通知图像分割质量和空间标准化的数据质量度量。
重复图像识别也是质量控制的重要环节。图像误标记或同一参与者参与多项研究的情况并不罕见。前述图像(不)相似性方法也用于原始上传图像,以识别存储库中的重复图像。此过程涉及将每个新上传图像与数据库中所有其他上传图像进行比较。具有高相关值的图像可能反映重复图像。平台有一个数据质量审查页面,案例可以通过图像质量度量排序,包括图像相似性度量以识别可能有问题图像。
平台还集成JupyterHub资源,允许研究人员在不将数据下载到本地存储的情况下进行图像和统计分析,从而简化工作流程并限制用户的计算需求。研究人员可以使用Jupyter Notebooks进行交互式分析,允许他们编码、可视化和记录工作。Matplotlib、Seaborn等绘图库使得直接在notebook中可视化数据更加容易。这种方法还允许多名研究人员在同一数据集上工作,为他们提供协作的共享环境。这种协作促进了分析管道的一致性,因为所有团队成员使用相同的环境、工具和数据。用户可以保存他们的notebook并与他人共享分析,使他们的工作可重现,无需担心团队成员间本地环境差异。
JupyterHub还允许用户利用可扩展的计算资源进行深度学习或大规模神经影像分析等任务,使得高效处理复杂数据集成为可能。用户负责验证他们的分析代码和通过平台生成的结果。随着新数据提交到存储库,存储库数据的统计结果可能随时间变化。使用JupyterHub和归档数据确保结果的一致性和解释。Jupyter Notebooks对所有用户可用,从而允许代码共享和用户对使用存储库数据生成结果的评估。访问这些notebooks并在项目中使用代码的用户必须向原始作者提供 attribution。明确的代码来源 attribution 增强了研究透明度,允许他人评估方法和结果的可靠性和有效性。通过遵守这些原则,用户有助于建立更加透明、可重现和道德负责任的研究环境。
数据访问和治理方面,如前所述,访问存储库数据必须签署DUA,以确保适当使用、贡献者确认和对存储库增强的考虑。DUA流程确保数据集被负责任地使用。为支持负责任的数据共享,项目人员监督数据访问请求,监控潜在滥用,并确保上传文件不包含个人标识符(如HIPAA标识符)。DUA还旨在建立对DDC平台适当使用的期望,而持续的逐案审查能够实现响应式监督。平台在账户注册期间提示用户及其机构代表签署DUA。用户也可以在请求下载数据时稍后签署DUA。有一个促进数据访问的愿景,以限制实施研究计划的延迟,存储库也可用于教育目的。展望未来,还建立了一个外部咨询委员会,其专业知识涵盖基础科学、临床研究和数据共享,以解决新兴伦理考虑并指导存储库开发。
尽管当前存储库基础设施不支持纵向数据处理,但这是未来开发的重点,愿景是跟踪阅读发展的延迟和/或非典型轨迹。未来更新还将为用户提供更大灵活性,以定制图像处理管道,包括选择纳入人口统计学适当的先验知识并生成研究特定模板进行空间标准化。
为扩大平台的图像处理能力,正在开展工作以整合额外神经影像模态的图像处理方法,包括功能MRI(fMRI)和扩散MRI(dMRI)。计划整合包括fMRIPrep——它将提供经过运动校正时间序列的预处理fMRI数据,和QSIPrep——以提供白质微结构度量。正在整合测量相似构造(如FreeSurfer和CAT12的皮质厚度)的图像处理管道,以便用户可以评估结果是否依赖于处理方法。数据存储库受益于正式的本体论组织。还在整合基于本体的协调方法,以加强标准化和跨研究可比性。这也促进了与用户就每个数据点的含义、如何收集以及如何最佳解释结果进行沟通。
这项研究由Eunice Kennedy Shriver国家儿童健康与人类发展研究所资助(HD069374),所有作者声明无竞争利益。研究结果发表在《Neuroinformatics》期刊上,为研究人员访问和共享数据提供了一个集中化存储库,促进了协作、教育、复制和发现。平台解决了数据验证、注释和标准化等挑战,以优化数据完整性,同时组织和整合行为、人口统计和神经影像数据集。平台添加JupyterHub资源允许用户交互式访问和分析数据,利用各种计算工具和库。研究人员可以访问策划的数据集,应用先进分析技术,并与更广泛的社区共享他们的结果。最终目标是推进对阅读发展和阅读障碍神经生物学的理解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号