编辑推荐:
在生物成像的高内涵筛选(HCS)中,数据管理面临挑战。研究人员利用工作流管理系统(WMS),结合图像数据管理平台 OMERO,开发半自动化工作流程。结果显示可提升数据管理效率,增强数据 FAIR 性,为相关研究提供新思路。
在生命科学研究领域,生物成像的高内涵筛选(High-content screening,HCS)技术大放异彩,它能从大量生物样本中获取海量图像,为探索生物过程提供了丰富的数据资源。但随着而来的是棘手的数据管理难题,一场数据管理的 “危机” 悄然降临。HCS 实验产生的数据量极为庞大,一次采集就能生成多达数十万张图像,同时还会伴随大量元数据,这些元数据涵盖了从实验设定到样本细节等方方面面的关键信息。
以往,研究人员常采用基于本地文件的存储系统,将元数据和二进制数据分别存储在不同文件和文件夹中,通过手动操作来管理。然而,这种方式就像手工搭建积木,不仅容易出错,而且面对成千上万的图像时,管理难度呈指数级上升,就如同在堆积如山的文件中寻找一根针,效率极低,还可能导致数据的不一致性和不可重复性,严重阻碍了研究成果的共享和进一步探索。
为了突破这一困境,来自德国亥姆霍兹环境研究中心(Helmholtz Centre for Environmental Research,UFZ)等机构的研究人员踏上了探索之旅。他们开展了一项旨在利用工作流管理系统(Workflow management system,WMS)创建可复用的半自动工作流程,以实现基于 OMERO(Open microscopy environment remote objects)平台的 HCS 生物成像数据管理的研究。该研究成果发表在《Scientific Reports》上,为生物成像数据管理带来了新的曙光。
研究人员在探索过程中,主要运用了以下关键技术方法:首先,选用 OMERO 这一强大的开源图像数据管理系统,它就像一个智能的数据仓库,能高效存储、可视化和分析大规模生物图像数据集。其次,借助 Galaxy 和 KNIME 这两种 WMS 构建处理工作流程。Galaxy 拥有友好的用户界面,能方便地处理大规模数据集;KNIME 则支持创建模块化的图像分析流程。此外,利用 ezomero 这个 Python 库,让不同工具与 OMERO 更好地协同工作,实现数据的高效管理与传输。
下面让我们来看看具体的研究成果:
- Workflow 1—— 通用导入工作流程:研究人员开发了基于 Galaxy 和 KNIME 的通用工作流程,用于将数据导入 OMERO。Galaxy 工作流程基于 OMERO - suite 中的三个主要工具,通过六个用户输入实现数据上传和管理;KNIME 工作流程则通过三个用户输入,利用包含 ezomero 代码块的 Python 节点将数据传输到目标 OMERO 服务器,且该流程既可以在本地运行,也能在云服务器上交互执行12。
- Workflow 2—— 斑马鱼胚胎 HCS 数据分析工作流程:以 Workflow 1 为基础,针对斑马鱼胚胎 HCS 数据集(DZF)开发了特定工作流程。通过添加三个分支,实现了对 JSON 文件中 ROI 坐标的解析和上传、将 OMERO 数据集自动转换为用于 HCS 可视化的平板格式,以及以表格形式上传额外结果,方便全面理解数据并在 OMERO.table 中可视化34。
- Workflow 3—— 细胞系细胞核分割工作流程:同样基于 Workflow 1,在 Galaxy 上创建了结合图像数据处理和上传到 OMERO 的集成工作流程。该流程将图像转换为 OME.TIFF 格式后上传到 OMERO,同时利用 ImageJ - based Galaxy 工具进行图像预处理、细胞核分割和特征提取,最终创建 ROI 并关联到相应图像,在 OMERO.viewer 和 OMERO.table 中可视化结果56。
在讨论和结论部分,研究人员指出,这些开发的工作流程成功实现了 HCS 生物成像数据管理过程的自动化,原本需要手动完成且容易出错的任务,现在可以高效、准确地执行,大大提升了数据处理效率。而且,Galaxy 和 KNIME 工作流程让没有编程技能的用户也能轻松根据自身需求构建工作流程。
OMERO 融入工作流程,极大地增强了图像数据管理框架的 FAIR(Findable, accessible, interoperable and reusable)性,便于全球范围内的研究人员共享数据和远程访问。不过,在文件格式转换方面,不同工具各有利弊,WMS 集成的转换工具操作方便但处理大规模数据集时存在速度慢等问题,而原生 Bio - Formats 转换速度快、更灵活,但在处理旧系统兼容性和错误时较为复杂。
与其他 WMS 相比,Galaxy 和 KNIME 虽功能相似,但设计不同,不可互换。Galaxy 拥有强大的社区支持,且在支持下一代文件格式(如 Zarr)方面表现出色;未来,还可以探索 JIPipe 和 Nextflow 等 WMS,为生物成像工作流程自动化提供更多可能。
总的来说,这项研究意义非凡,它为 HCS 生物成像数据管理提供了创新的解决方案,推动了生命科学研究中数据管理的自动化进程,让研究人员能更高效地处理和利用生物成像数据,为后续研究开辟了新的道路,也为相关领域的数据管理提供了极具价值的参考范例,有望引领生物成像数据管理进入一个全新的时代。