编辑推荐:
晶体学片段筛选数据量激增,现有数据管理程序和数据库面临挑战。研究人员探讨其存储和共享问题,提出四种存档方案。这有助于规范数据管理,推动药物研发等相关领域发展。
在药物研发的道路上,寻找能与大分子靶点结合的小分子是关键的起始步骤。过去,高通量筛选(HTS)是主导方法,然而近 30 年前,基于片段的筛选崭露头角。片段(分子量通常小于 300Da 或由少于 23 个非氢原子组成的分子)虽小,却能高效且弱结合于靶点 。X 射线晶体学用于片段筛选后,发展迅猛。如今,全球已有超十个主要同步辐射光源安装或即将安装片段筛选设施 。但随之而来的是数据管理的难题,大量晶体学片段筛选数据既未发表也未公开,而现有的数据处理和存档程序难以应对这些数据的快速增长以及结构精修的压力。
为了解决这些问题,来自多个国家科研机构的研究人员展开了深入研究。研究聚焦于晶体学片段筛选数据的存储和共享,旨在找到切实可行且符合 FAIR(可发现、可访问、可互操作和可重用)原则的方法。该研究成果发表在《Nature Communications》上,对推动相关领域的发展意义重大。
研究中用到的主要关键技术方法包括:利用同步辐射光源进行晶体学数据收集,其在技术发展后能快速收集数据;运用 Pan - Dataset Density Analysis(PanDDA)方法分析数据,通过构建 “事件图” 揭示片段结合证据;采用多种结构解析和精修方法,如自动化分子置换(DIMPLE)等确定蛋白质结构 。
晶体学片段筛选的发展历程
早期,X 射线晶体学用于片段筛选存在诸多限制,如速度慢,需采用化合物鸡尾酒法,导致单个成分浓度受限且难以明确识别,还可能因部分成分破坏晶体堆积而丢失结合信息 。此外,学术研究人员起初对其接受度不高,使得该方法主要由私营部门推动发展 。但随着同步辐射光源技术的进步,数据收集通量大幅提升,同时人们认识到传统预筛选生物物理方法存在不足,“晶体学优先” 的理念逐渐兴起,越来越多的同步辐射光源建立了片段筛选工作流程,为学术和工业用户提供服务 。
数据共享和存档面临的挑战
在结构生物学领域,高质量的三维生物结构数据验证和专家管理取得了显著成果,PDB 中存档的大分子结构数量不断增加 。然而,晶体学片段筛选数据给当前的数据管理程序和数据库带来了巨大挑战。一方面,数据增长速度极快,可能使进入 PDB 的 X 射线结构数量近乎增加一个数量级,现有协议难以处理如此大量的数据 。另一方面,高通量片段筛选得到的结构常为部分精修,与传统精修结构不可直接比较,且片段结合的亚化学计量占据导致晶体的组成和构象异质性,难以用现有精修程序编码,影响数据在 PDB 中的验证和存档 。此外,PanDDA 方法的应用使得片段存在的实验证据分散在多个数据集,增加了数据存档的复杂性 。
数据处理的现有方法
目前,不同研究团队处理片段筛选数据的方法各不相同。传统方法是尽可能自动精修无配体的蛋白质结构,通过差分电子密度分析识别配体并精修至收敛,但处理大量结构时效率低下 。还有团队利用自动化分子置换(DIMPLE)确定蛋白质结构,根据差分电子密度图或 PanDDA 事件图放置配体并进行不同程度的精修 。这些方法都反映出当前缺乏统一、标准化的程序 。
数据存档的可选方案
为实现晶体学片段筛选数据的 FAIR 存档,研究人员提出了四种方案。方案一是将片段筛选命中的结果存档为完全精修的蛋白质 - 配体共晶体结构,这对筛选团队负担较大;方案二是存档为部分精修结构,可减轻团队负担,但会增加 PDB 管理的工作量;方案三是将整个片段筛选活动信息存档于单个数据存储库,科学价值高,但面临数据存储位置和管理的问题;方案四是将基于片段命中的完全精修后续结构存入 PDB,其余信息存于其他数据资源,可避免 PDB 负担过重,但需解决数据共享和遵循 FAIR 原则的问题 。
研究结论与讨论
研究表明,晶体学片段筛选在药物研发中具有重要潜力,但数据管理问题亟待解决。目前缺乏统一的处理和保存数据的程序,研究人员呼吁开展社区讨论,制定最佳实践和公认程序,wwPDB 在其中应发挥重要作用 。遵循 FAIR 原则对片段筛选研究人员至关重要,建立相关工具和标准迫在眉睫。此外,如何使晶体学片段筛选数据与其他生物物理片段筛选结果互操作也是未来需要深入研究的方向 。这项研究为晶体学片段筛选数据的管理指明了方向,对推动药物研发以及相关领域的发展具有重要的指导意义,有望促进更多基于片段筛选的药物发现和创新。