编辑推荐:
研究人员为克服传统显微CT成像在昆虫三维形态数字化中存在的通量低、预处理复杂、数据标准化与开放共享不足等问题,在“Antscan”开放科学计划下,联合全球馆藏,利用高通量同步辐射X射线显微断层扫描技术,对近800种蚂蚁进行全身体积成像。该项目成功创建了包含2,193个高分辨率三维数据集的公共数据库,覆盖广泛的蚂蚁系统发育树,并与基因组测序项目对接。其意义在于为理解生物表型多样性进化、功能与生态关联,以及推动形态学大数据分析与人工智能方法应用,提供了前所未有的标准化、开放性资源。
在生物学步入大数据时代的浪潮中,对生命体形态(表型)的研究却似乎步履蹒跚。我们惊叹于昆虫,特别是蚂蚁,所展现的惊人形态多样性和生态优势,但传统的形态学研究方法,如显微CT(micro-CT),在应对海量物种的数字化需求时显得力不从心。其“瓶颈”主要体现在:成像通量低,扫描一个样本往往耗时数小时至数天;为增强软组织对比度常常需要对珍贵标本进行染色、干燥等侵入性预处理,这既改变了标本原始状态,也限制了可扫描样本的范围;此外,不同实验室、不同设备产生的图像数据差异巨大,缺乏可比性,这为后续利用计算机视觉和人工智能(AI)进行自动化分析设置了巨大障碍。更关键的是,宝贵的三维数据在论文发表后常常未能公开共享,形成了“数据孤岛”,阻碍了科学发现的进程。为了系统性、高效率地“捕捉”并开放这一形态宝藏,一个国际研究团队发起了一项雄心勃勃的计划——“Antscan”。
这项发表在《Nature Methods》上的研究,旨在为全球蚂蚁的生物多样性创建一个大规模、开放获取的三维表型数据库。研究人员从全球博物馆和私人收藏中收集了以乙醇保存的蚂蚁标本,在德国卡尔斯鲁厄理工学院(KIT)光源中心,利用装配了机器人样本交换系统的高通量同步辐射X射线显微断层扫描装置,对样本进行快速、非破坏性的三维成像。同步辐射源的高通量特性使得扫描速度大幅提升(约25个样本/小时),其相位衬度成像能力无需染色即可清晰分辨软组织。通过标准化的扫描和图像重建流程,他们获得了高度可比的三维数据集。所有数据经过自动化的后处理(如基于深度学习的粗略分割、裁剪)后,被整合到一个名为“Antscan”的公共在线数据库中,该数据库基于Biomedisa平台构建,允许用户在线浏览、下载、甚至进行半自动图像分割分析。同时,所有数据也在KIT的RADAR4KIT存储库中永久存档,并关联了数字对象标识符(DOI)。
研究人员围绕“Antscan”数据库的构建与应用,开展了一系列工作,并得出了多项结论。
系统发育覆盖
为最大化数据库的科学价值,研究团队在设计样本取样时,力求覆盖蚂蚁系统发育树的广度,并包含稀有物种及高度多样化属的多个代表。最终,数据库涵盖了现存16个蚂蚁亚科中的14个,包含了212个属、至少792个物种,共计2,193个蚂蚁个体(含工蚁、蚁后和雄蚁)的三维数据。这212个属涵盖了超过90%的已描述蚂蚁物种。特别重要的是,该研究与全球蚂蚁基因组联盟等测序项目协同,使得186个被扫描物种关联了基因组数据,其中157个扫描个体与测序标本来自同一巢群系列,为未来从基因组到表型的整合研究奠定了坚实基础。
层析成像数据
研究利用高通量同步辐射micro-CT,成功为所有样本生成了全身层析图像。针对不同体型的蚂蚁,采用了三种放大倍率(对应有效像素尺寸分别为1.22 μm、2.44 μm和6.11 μm),以优化成像效果。同步辐射的相位衬度成像能力,无需染色即可有效增强肌肉等软组织边界的对比度。研究采用了一种将标准吸收衬度重建与相位检索重建相结合的“混合”数据处理流程,从而在单一体积数据中同时获得外骨骼的高吸收信号和软组织的清晰边界。尽管有少数大标本因超出视野而使用了实验室micro-CT,以及部分早期样本采用了碘染色,但绝大多数数据都遵循了标准化的成像协议。通过基于神经网络(Biomedisa平台)的自动化处理流程,所有层析数据都经过了自动的粗略分割和背景裁剪,大幅减小了文件体积,并生成了初步的三维表面网格模型。这种标准化和自动化流程确保了数据集的内部可比性,为机器学习和计算机视觉方法的应用铺平了道路。
公共Antscan数据库
Antscan数据库完全开放,采用知识共享(CC BY 4.0)许可。其核心交互平台(biomedisa.info/antscan)允许用户通过关键词搜索元数据,在线预览三维模型和图像切片,并直接下载层析数据。每个样本都附有详尽的元数据,包括分类信息、生态参数、标本标识符、采集地信息,以及是否关联基因组数据等,并确保了标本贡献者和收藏机构的署名权。该平台还集成了Biomedisa的图像分割工具,注册用户可以在线对数据进行半自动或自动分割分析。为确保持久可访问性,所有处理后的图像文件和元数据均在KIT的RADAR4KIT存储库中进行了镜像备份,并为每个扫描样本分配了独立的DOI。
示例性应用案例
研究通过具体案例展示了Antscan数据蕴含的丰富信息及广泛应用潜力。首先,通过对一只南美行军蚁(Eciton hamatum)亚兵蚁的精细分割,研究人员展示了从单个扫描中提取外骨骼、肌肉、神经系统、消化系统和蜇刺装置等全套解剖结构的可行性,这些数据可用于量化分析、三维渲染甚至三维打印。其次,通过对大量数据的快速筛查,研究验证了一个先前未知的性状——生物矿化护甲——在切叶蚁族(Attini)中的广泛分布。仅在数据库内初步筛查就发现,这一性状普遍存在于多种不同耕作系统的切叶蚁中,但在Atta等少数属中缺失,这与之前推测的二次丢失现象一致。这个例子表明,标准化的高通量成像数据集使得无需获取新数据即可在大尺度上检验进化与生态假说成为可能。
综上所述,Antscan研究构建了一个跨越蚂蚁形态与解剖多样性、规模空前的开放三维表型数据库。其核心结论在于,通过将高通量同步辐射micro-CT、标准化成像流程、自动化数据处理与开放数据库架构相结合,成功克服了传统形态数字化在通量、标准化和可及性方面的主要瓶颈。这项工作不仅为蚂蚁的进化、形态功能、生态学研究提供了革命性的基础资源,更重要的是,它建立了一个可扩展的工作流程范式。该范式表明,对乙醇保存的小型无脊椎动物标本进行高效、非破坏性的三维数字化是可行的,这为未来将类似方法推广到生命之树的其他分支铺平了道路。Antscan数据库通过严格关联标本来源和贡献者信息,在开放数据的同时尊重并凸显了自然历史收藏的科学价值。随着计算机视觉、人工智能和三维数据分析工具的不断发展,此类大规模、标准化的表型数据库有望像基因组数据库一样,成为推动整合生物学、进化生物学和生态学进入大数据驱动新时代的关键基础设施,使全球研究者、教育者和公众都能平等、便捷地探索和利用生物形态的微观奥秘。