编辑推荐:
为探究畜牧生产数据再利用问题,研究人员评估 30 个欧洲数据集,发现诸多问题,对改进数据管理意义重大。
在动物健康研究领域,畜牧生产数据的有效利用至关重要。随着畜牧业的发展,大量数据不断产生,但这些数据却面临着难以有效再利用的困境。一方面,许多数据是由公共或私人畜牧价值链利益相关者为满足监管或运营需求而收集的,并非专门为研究目的而产生。例如,疾病通报系统、生产性能管理记录、健康档案以及动物移动信息等,虽然这些数据蕴含着丰富的信息,可用于改善动物健康、福利、生产效率以及畜牧生产系统的可持续性,但在实际研究应用中却困难重重。另一方面,数据再利用面临着诸多挑战。从数据管理角度来看,良好的数据管理实践可使数据具备可发现性、可访问性、互操作性和可再利用性(FAIR 原则),然而在兽医流行病学领域,实施良好的数据管理面临诸多阻碍,部分原因在于相关技能和资源的缺乏。同时,私人部门通常将数据视为竞争优势,担心数据被他人获取会带来风险,且数据中常包含个人数据,受到严格的数据保护法规约束,如欧盟的《通用数据保护条例》(GDPR),这限制了数据的二次使用和整合。
为了解决这些问题,来自多个欧洲国家的研究人员参与了一项研究。该研究基于欧盟 “地平线 2020” 计划资助的 DECIDE 项目,旨在评估陆地和水生畜牧生产链利益相关者产生的数据在研究框架中的再利用情况,以及这些数据对数据共享和再利用基本标准的符合程度。
研究人员采用了多种技术方法。首先,设计了在线调查问卷,问卷涵盖 11 个类别共 103 个问题,用于收集数据集信息并评估其对 FAIR 原则和 GDPR 的合规性。问卷问题的设计参考了标准化元数据模式、FAIR 原则及相关问卷、GDPR 法规等。数据收集分两轮进行,之后对数据进行清洗和质量检查,去除不完整答案和无关数据集,并对数据进行匿名化处理。对于包含个人数据的数据集,依据 GDPR 中关于问责原则的两个标准进行评估;对于 FAIR 合规性评估,研究人员根据实际情况对 FAIR 原则进行调整,制定了 12 个具体标准来评估数据集的合规性。
研究结果如下:
- 调查响应率:调查响应率为 79%,共收集到 30 个数据集的信息。受访者来自 11 个组织,背景多样,多数受访者对 FAIR 和 GDPR 原则的了解和应用经验有限。部分受访者对数据共享存在保留态度,如部分数据在与研究联盟共享或存入数据存储库时受到限制。
- 答案质量:“治理” 类别答案质量较高,而 “管理”“数据模型”“元数据” 等类别答案质量较差,反映出在这些方面数据描述和理解存在不足。
- 数据集特征:数据集涵盖多种物种,主要来自欧洲多个国家,多数数据非英文。收集的信息类型多样,多为满足运营需求而产生,部分数据集整合了不同来源信息,数据收集方式以自动化为主。多数数据集有数据质量相关文档,但具体实施过程的详细信息较少。数据模型多有记录,主要存储为表格格式,多数数据集自创建后有修改,但变更信息记录不全,且几乎未使用标准词汇。近一半数据集没有可识别的元数据,已有的元数据在结构和细节上差异较大。
- GDPR 问责性:11 个包含个人数据的数据集评估结果显示,部分数据集无法明确数据控制者,多数数据集在数据治理角色的记录方面存在不足,数据所有者填写的问卷得分高于数据使用者。
- FAIR 合规性:多数数据集 FAIR 合规性得分较低,在可发现性、可访问性、互操作性和可再利用性方面均存在问题。例如,数据与元数据的链接不清晰,多数数据集缺乏元数据访问协议,只有少数数据集使用标准词汇,且极少数据有许可证保护。
研究结论和讨论部分指出,当前畜牧生产数据在再利用方面存在诸多问题。元数据的缺失和标准词汇的极少使用,导致数据难以被直接理解和使用,增加了信息丢失和分析错误的风险。数据质量相关信息的不足也影响了数据的再利用和互操作性,目前动物健康领域缺乏统一的数据质量评估标准。此外,部分数据集对 GDPR 问责原则的合规性较低,可能与受访者对 GDPR 的熟悉程度不足有关,这凸显了加强数据管理培训的重要性。同时,研究也存在一定局限性,如部分信息可能因受访者原因未被准确提供,问卷调查方式可能导致结果偏差。未来需要开发更适合此类数据的管理指南和工具,加强对利益相关者的培训,提高数据管理技能,以充分利用畜牧生产系统中不断增长的异构数据,提升动物健康水平,推动畜牧行业的可持续发展。该研究成果发表在《Scientific Data》上,为后续研究提供了重要参考,对改善畜牧生产数据管理、促进动物健康研究具有重要意义。