编辑推荐:
本研究针对机器学习在医学和物理科学中应用时高质量训练数据匮乏的问题,开展多模态同步辐射数据集的开发研究,成功构建了锌掺杂沸石13X样本的三维多模态数据集,为机器学习技术的发展提供了重要支持。
机器学习技术在医学和物理科学中的应用日益广泛,尤其是在医学成像领域,卷积神经网络(CNN)、生成对抗网络(GAN)和扩散模型等深度学习架构已被成功应用于分割、分类、超分辨率和数据融合等任务。然而,深度学习模型的开发面临着高质量训练数据匮乏的挑战。为此,研究人员开发了一个独特的多模态同步辐射数据集,该数据集基于锌掺杂的沸石13X样本,通过多分辨率微X射线计算机断层扫描(XCT)和空间分辨的X射线衍射计算机断层扫描(XRD-CT)技术,生成了可用于开发先进深度学习和数据融合管道的三维多模态、多分辨率数据集。该研究为解决机器学习中高质量训练数据不足的问题提供了重要支持,相关成果发表在《Scientific Data》上。
为了构建该数据集,研究人员采用的主要关键技术包括:(1) 多分辨率微X射线计算机断层扫描(XCT),在I13-2光束线上以四种像素尺寸(2.6 μm、1.625 μm、0.8125 μm和0.325 μm)获取样本的XCT数据;(2) 空间分辨的X射线衍射计算机断层扫描(XRD-CT),在DIAD光束线上以两种不同的衍射斑尺寸(25 μm和50 μm)获取样本的XRD-CT数据;(3) 数据融合技术,将不同分辨率和模态的数据进行空间对齐和配准,以生成可用于机器学习训练的高质量数据集。
研究背景部分指出,机器学习在医学和物理科学中的应用受到高质量训练数据不足的限制。例如,在超分辨率任务中,需要空间对齐的高分辨率和低分辨率图像;而在数据融合任务中,需要同一样本的两种空间分辨模态数据。同步辐射设施能够提供比传统实验室X射线设备更高的空间和时间分辨率,并允许同时获取不同模态的数据。研究人员利用这一优势,开发了一个锌掺杂的沸石13X样本的多模态数据集,旨在为机器学习模型的训练提供足够的高质量数据。
在实验部分,研究人员首先制备了锌掺杂的沸石13X样本。通过将沸石13X粉末浸泡在氯化锌溶液中,实现了锌离子对钠离子的部分替换,从而引入了空间受限的相异质性。随后,研究人员在I13-2光束线上对样本进行了多分辨率XCT扫描,获取了不同像素尺寸的XCT数据。在DIAD光束线上,研究人员同时进行了XCT和XRD-CT扫描,获取了样本的空间分辨XRD-CT数据。通过将不同模态的数据进行空间对齐和配准,研究人员成功构建了一个三维多模态数据集。
研究结果表明,该数据集具有多模态、多分辨率的特点,能够为机器学习技术的发展提供重要支持。例如,I13-2光束线上的XCT数据可用于基准化超分辨率方法,而DIAD光束线上的XRD-CT数据可用于开发数据融合方法。此外,研究人员还提供了数据的原始和处理格式,以便更广泛地应用于XCT和XRD-CT的重建和后处理算法开发。
研究结论部分强调,该多模态同步辐射数据集的开发为机器学习在医学和物理科学中的应用提供了重要的数据支持。通过提供高质量的训练数据,该研究有望推动机器学习技术在超分辨率、数据融合和三维重建等领域的进一步发展。此外,该数据集的公开可用性也为相关领域的研究人员提供了一个宝贵的资源,有助于促进跨学科的合作和创新。