综述:传染病、过敏性和免疫介导性疾病数据资源:全景概述与子集评估
《Journal of Medical Systems》:Infectious, Allergic, and Immune-Mediated Disease Data Resources: a Landscape Overview and Subset Assessment
【字体:
大
中
小
】
时间:2025年11月23日
来源:Journal of Medical Systems 5.7
编辑推荐:
本综述系统梳理了传染病、过敏性和免疫介导性疾病(IID)领域的数据资源,为研究人员应对美国国立卫生研究院(NIH)数据管理与共享(DMS)政策提供了实用指南。研究团队通过专家咨询和网络检索,识别出58个IID特异性数据资源,并对其中19个支持数据提交的资源进行了详细评估。评估基于FAIR(可查找、可访问、可互操作、可重用)和TRUST(透明度、责任、用户社区、可持续性、技术)原则,涵盖数据提交流程、访问控制、标识符系统、分析工具及合规文档等关键维度。研究发现,当前资源在“组学”数据方面较为丰富,但成像、生物样本等类型资源相对匮乏,且各资源在提交要求、数据管理实践上存在显著差异。文章强调了提高资源透明度和标准化水平对于促进数据共享和重用的重要性,为IID研究者制定DMS计划和开展二次数据分析提供了重要参考。
为了促进科学数据的透明度、可访问性和可用性,美国国立卫生研究院(NIH)实施了数据管理与共享(DMS)政策。该政策要求大多数资助申请必须包含一份DMS计划,详细说明项目产生数据将存放的数据资源(例如,数据存储库、知识库、门户网站)。然而,在庞杂的数据资源 landscape 中导航,包括接受广泛数据类型的通用资源和接受特定领域数据的专业资源,是一项耗时的工作。美国国家过敏和传染病研究所(NIAID)旨在支持研究人员为其任务领域内的申请准备DMS计划。为了支持传染病、过敏性和免疫介导性疾病(IID)数据的存储和访问,本研究编制了一份IID数据资源清单。
数据资源的识别工作于2022年11月至2025年3月期间进行,通过审查公开可用的网站资源,并咨询NIAID相关的主题专家(SME),包括数据科学家、负责监督和协调院外资助和合同的NIAID项目工作人员,以及参与IID数据生成、管理或存储的NIAID资助的研究人员。咨询通过电子邮件或定期会议进行,直至新的建议大部分重复现有条目,认为列表已达到饱和。所包含的资源不限于NIH或NIAID资助的资源。
数据资源根据其是否主要包含IID数据进行分类,并评估排除标准。如果资源嵌套在更大的资源中、无法访问、缺乏数据访问信息或仅包含参考资料,则被排除。对其余资源进一步描述,识别其主要关注的疾病或病原体、科学内容、数据访问要求和数据提交能力等特征。科学内容类别根据美国国家医学图书馆医学主题词表(MeSH)进行定义。数据访问要求根据既定定义分为开放、需要注册或受控访问。每个数据资源被标识为接受或不接受数据提交。接受数据提交的资源被纳入问卷评估的子集。
随后,基于FAIR和TRUST原则、科技政策办公室(OSTP)数据存储库理想特征、CoreTrustSeal要求以及多个领域特定的存储库评估中的关键标准,制定了一份包含23个问题的问卷。问卷问题被设计为可基于公开文档用是/否清晰回答,以避免主观性。问卷项目分为四组:(1)数据访问与提交;(2)标识、溯源与质量保证;(3)数据检索与分析工具;(4)文档与合规性。两位评审员独立完成对接受数据提交的IID数据资源的问卷填写,分歧通过讨论解决。
初步识别出303个数据资源,其中197个因数据与IID无关被排除。剩余的106个资源经过进一步筛选,排除了22个嵌套资源、4个链接失效资源、11个缺乏数据或访问指南的资源以及11个仅包含参考资料的资源,最终得到58个IID特异性数据资源。
对这58个资源的核心特征进行了总结。按主要疾病或病原体分类,大多数资源属于“通用传染病和病原体”(n=29, 50%),其次是“呼吸道病原体”(n=10, 17%)和“HIV/艾滋病”(n=8, 14%)。在数据访问方面,34个(59%)资源仅提供开放访问数据,15个(26%)包含受控访问数据,5个(9%)同时提供开放和受控访问。科学内容方面,“组学”数据(如基因组学、蛋白质组学、代谢组学、多组学及相关学科)最为常见,出现在38个(66%)资源中,其次是临床数据(n=21, 36%)和生物测定数据(n=20, 34%)。共有19个(33%)资源接受数据提交。
对19个接受数据提交的资源进行详细评估后发现,数据提交要求各异:8个(42%)需要注册或账户,7个(37%)需要额外的批准或合同(如数据使用协议、IRB批准),4个(21%)要求用户是特定合作网络或联盟的成员。
在数据访问与提交方面,12个(63%)资源提供受控访问数据。14个(74%)资源提供至少部分元数据的开放访问。所有19个资源都支持数据提交者身份验证。9个(47%)资源有公开的数据提交格式要求文档,仅1个(5%)资源指定了大小限制,1个(5%)资源收取数据存储费用。
在标识、溯源与质量保证方面,5个(26%)资源为每个数据集分配持久标识符(如DOI),11个(58%)使用平台特定的本地标识符,3个(16%)不分配任何数据集标识符。14个(74%)资源有系统来追踪元数据或数据的溯源。同样,14个(74%)资源支持专家策展或质量保证,以提高数据和元数据的准确性和完整性。
在数据检索与分析工具方面,12个(63%)资源提供通过应用程序编程接口(API)访问元数据或数据。所有19个资源都允许用户将数据下载到本地机器。13个(68%)资源提供至少一种分析工具,10个(53%)提供工作空间。在有工作空间的资源中,仅1个(5%)需要付费维护数据,2个(11%)允许用户在工作空间内使用自己的分析工具,没有资源对在工作空间中分析数据收费。
在文档与合规性方面,10个(53%)资源提供关于风险管理的文档。5个(26%)资源提供了数据保留政策的文档。16个(84%)资源有确保防止未经授权访问、修改和发布数据的安全政策。所有19个资源都提供了概述其数据使用条款的文档。
本评估揭示了IID研究领域的多样性和复杂性,这反映在可用数据资源的广泛范围上。为DMS计划选择合适的数据资源具有挑战性,需要考虑数据类型和格式、安全性、存储、保留政策以及使用单一或多个资源进行数据存储的权衡。这些决定会影响数据的重用,特别是当资源不被广泛认可或缺乏互操作性特征时。在研究过程早期选择资源会影响数据和元数据的格式、访问和共享政策。
评估发现IID研究资源可用性存在不平衡。“组学”和临床数据资源丰富,而成像和生物样本等其他类别的资源明显不足。这种不平衡可能源于投资差异、数据共享文化以及技术或伦理挑战。
在19个支持数据提交的IID数据资源的子集评估中,观察到在提交流程、访问控制、元数据实践和文档质量方面存在显著差异。数据访问模式从开放到受控不等,身份验证要求从电子邮件注册到机构批准各不相同。尽管数据访问存在差异,但大多数资源提供了开放访问的元数据,使研究人员能够在启动访问请求前评估数据的相关性、结构和质量。
数据提交要求因资源而异。一些资源没有公开提供关于文件格式和大小的指南。除了格式问题,其他障碍还包括有限的用户支持、不清晰的文档以及数据使用协议等行政障碍。这些障碍并不统一,反映了整个数据共享生态系统中更广泛的分裂现象。
分配数据集标识符的做法因资源而异。虽然一些资源发布全局唯一标识符(如DOI),但其他资源使用可能在其原始上下文之外无法解析或跨平台互操作的本地标识符。与FAIR原则以及最近的NIH和OSTP指南一致,资源越来越被期望分配独特的、可引用的、持久的标识符,以支持联邦资助研究的访问和跟踪。
数据溯源(即数据的起源和历史)因资源而异。如果资源公开记录了数据版本控制的任何方面,则认为其支持溯源跟踪。自动化系统比手动方法可靠得多。
所有资源都允许用户本地下载数据,大多数支持通过API访问,为元数据和数据如何被访问和集成到工作流程中提供了灵活性。多数资源提供内置分析工具,超过一半提供工作空间环境。这些工作空间通常是低成本的,并且在提供时可访问。然而,在工作空间中集成工具的灵活性有限,这可能影响基于项目特定需求的DMS计划资源选择。
关于风险管理、数据保留和安全政策的文档通常难以定位和解释 across the 19 resources。虽然有一定程度的风险管理文档可用,但部分资源没有提供。只有少数资源记录了数据保留政策,而大多数没有提供明确的指导。相比之下,大多数资源提供了一些旨在保护数据免受未经授权访问的政策文档。大多数资源也包含了数据使用条款,有助于明确解决数据共享的法律和伦理考虑。
本评估的局限性包括依赖公开文档、灵活处理资源间的差异以及评估期间资源的变化。咨询的主题专家主要基于美国并由NIAID资助,可能导致列表偏向NIH/NIAID相关的IID资源,限制了全球覆盖范围。审查仅依赖公开可用文档,可能无法捕获每个资源的所有信息。由于文档不一致,评审员采取了灵活的方法。评审员的数据科学背景可能影响了数据类型分类和技术文档的解释。此外,科学发现通常需要多个领域的整合,本综述未包含其他科学重点的数据资源。最后,资金或基础设施的变化可能导致提供的链接无效或资源过时。
本评估与先前研究的不同之处在于:(1)它特别关注IID数据资源;(2)它通过描述与DMS计划制定和二次数据分析相关特征的存在情况来评估每个资源。研究结果强调了可供研究人员使用的资源的多样性和灵活性,涵盖了“组学”、临床、流行病学和生物测定数据,但也强调了由提交要求和数据管理实践的差异性带来的重大挑战。这些挑战表明需要提高数据资源的透明度和标准化水平。评估呼吁努力简化和标准化这些信息,使研究人员在制定DMS计划或寻找数据进行二次分析时能够更容易地评估和选择合适的资源。这样的改进将增强IID研究中数据的可发现性并简化数据共享。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号