大脑与行为发育的奥秘:多站点模拟数据集助力解开神经影像研究难题

【字体: 时间:2025年03月22日 来源:Scientific Data 5.8

编辑推荐:

  为解决神经影像研究中缺乏底层真相认知及方法检测力不明的问题,多研究组开展模拟数据集研究,生成 15 个数据集,为神经发育研究提供重要资源。

  在神经科学的神秘领域中,大脑的发育过程以及它与行为、认知之间的关系,一直是科学家们努力探索的关键问题。随着磁共振成像(Magnetic Resonance Imaging,MRI)技术的发展,人们能够非侵入性地研究儿童和青少年大脑的生长情况,这为神经科学研究带来了新的曙光。然而,在这看似光明的研究道路上,却隐藏着诸多挑战。
目前,神经影像研究的可重复性仍是一个关键问题。研究人员常常缺乏对潜在神经生物学机制的深入了解,这使得他们难以确定大脑结构与认知、行为之间的准确关联,以及它们之间复杂的相互作用。此外,在大多数情况下,研究人员并不清楚研究的底层真相,也不确定现有的研究方法是否能够有效检测出大脑发育过程中的变化。这些问题就像一道道迷雾,笼罩着神经影像研究领域,阻碍着科学家们对大脑奥秘的进一步探索。
为了驱散这些迷雾,来自全球五个研究组的科研人员携手合作,开展了一项极具意义的研究。他们分别来自美国国立心理健康研究所(National Institute of Mental Health,NIMH)、佐治亚州立大学、埃默里大学和佐治亚理工学院的三机构神经影像与数据科学转化研究中心(Tri-institutional Center for Translational Research in Neuroimaging and Data Science,TReNDS)、德国于利希研究中心、荷兰拉德堡德大学医学中心等机构。这些研究人员凭借各自在大脑发育、神经科学和计算机科学等领域的专业知识,独立创建了模拟纵向数据集,旨在揭示大脑、行为和认知之间的相互关系。
这项研究的成果发表在《Scientific Data》杂志上,为神经科学领域带来了新的突破。研究人员创建了 15 个模拟数据集,每个数据集都包含 10,000 名参与者,覆盖 7 个纵向波次,年龄范围从 7 岁到 20 岁。这些数据集涵盖了丰富的信息,包括人口统计学数据、大脑衍生变量、行为和认知变量等。通过这些数据集,研究人员能够应用不同的纵向模型,在已知真相的情况下,探索潜在的模式和假设。
在研究方法上,每个研究组都基于自己对大脑发育及其与行为、认知关系的理解,独立模拟纵向数据。他们重点关注从解剖 MRI 中获得的全局指标,如总灰质体积和皮质厚度(这些测量指标具有良好的重测信度),同时也纳入了几个皮层下区域的测量。在模拟过程中,各研究组严格遵循统一的标准,包括设定参与者数量、波次时间点、年龄范围、性别比例等。例如,每个数据集都包含 10,000 名参与者,共 7 个波次,年龄范围为 7 - 20 岁,性别比例约为男女各 50% 。研究人员还对认知测量(如智商,均值为 100,标准差为 15)、行为测量(基于儿童行为检查表(Child Behavior Checklist,CBCL)的内化和外化症状以及注意力问题量表)、自闭症诊断(0 表示无,1 表示有)、大脑体积测量(如颅内体积、总灰质体积等)、父母教育程度(分为四个等级)等变量进行了模拟,并对缺失数据和噪声等因素进行了合理设置。
研究结果方面,不同研究组创建的数据集各有特点。以 “dpn” 数据集为例,其模拟参数来源于多个真实数据源。首先从 ABCD 数据发布 5.0 的预处理 T1 加权 MRI 数据中估计大脑表型的相关矩阵和性别特异性比例,然后从寿命大脑图表中获取大脑表型的规范生长轨迹,对于未明确涵盖的表型(如海马体和杏仁核体积),则通过整合现有文献并调整规范模型数据来确定其生长轨迹。最后,通过模拟真实的 z 分数、添加测量噪声,并考虑变量之间的相关性,生成了符合现实世界发育模式的数据集。“leer” 数据集则使用 R 语言和 lavaan 包,通过逐步模拟大脑测量轨迹、添加协变量和缺失模式来生成数据。在模拟大脑轨迹时,根据已知的大脑发育知识,采用潜增长曲线模型,对不同的大脑测量指标设定不同的轨迹形状,并确保模拟数据与文献中的模式相似。“OSA” 数据集利用 R 语言和多个相关软件包,先定义横截面数据集,再转换为纵向格式,通过样条函数模拟大脑测量的年龄依赖性生长轨迹,并考虑了性别差异和自闭症个体的特殊情况。“paint” 数据集同样参考 ABCD 数据和寿命大脑图表,通过采样、拟合多项式、应用线性混合效应模型等方法生成数据,并且在不同的数据集中嵌入了特定的关系模式,如大脑体积与行为测量之间的预测关系、特定脑区体积轨迹与自闭症诊断的关系等。“site4802” 数据集根据条件高斯分布,基于从真实训练数据中学习到的均值和协方差来生成数据,并且对静态变量和动态变量进行了不同的模拟方式,还创建了包含不同程度缺失数据和扰动的版本。
在研究结论与讨论部分,这些模拟数据集为神经科学研究提供了宝贵的资源。研究人员可以利用这些数据集测试不同的假设,评估当前模型捕捉复杂脑 - 行为关系的能力,以及分析不同分析选择对研究结果的影响。与以往 “许多分析师分析一个数据集” 的项目不同,本研究中的原始数据集反映了多个研究组的不同假设和分析思路,并且由于知道底层真相,研究人员能够更准确地比较不同模型结果的变异性,包括假阳性和假阴性。虽然使用模拟数据存在一些局限性,例如可能无法完全捕捉个体间的真实变异性,对噪声特征的假设可能不准确,以及建模脑 - 行为关系时所考虑的变量有限等,但通过来自不同背景和地理位置的研究人员的共同参与,能够更全面地检验这些假设,帮助研究人员认识到自己在研究中的偏见和假设。这对于改进神经影像研究方法、深入理解大脑发育与行为、认知之间的关系具有重要意义。
总之,这项多站点合作的研究通过创建模拟数据集,为神经影像研究提供了新的视角和有力工具,有助于推动神经科学领域在大脑发育机制、脑 - 行为关系等方面的研究进展,为未来的相关研究奠定了坚实的基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号