《Journal of Molecular Biology》:RNAsolo 2.0: multimodal database to study RNAs, their structural families and intermolecular interfaces
编辑推荐:
RNAsolo 2.0是一个整合了清洁、非冗余RNA三维结构及详细分子互作信息的开源数据库,新增Rfam分类、2500个预编译基准集和多种结构表征模式,支持RNA与蛋白、配体等相互作用的可视化查询,为结构生物学和AI建模提供高效平台。
Bartosz Adamczyk | Pawel Boinski | Marta Szachniuk | Maciej Antczak
波兰波兹南工业大学计算科学研究所,M. Sklodowskiej-Curie广场5号,60-965,波兹南
摘要
理解RNA结构对于揭示其生物学功能、相互作用和治疗潜力至关重要,这既依赖于实验技术,也依赖于越来越多地由人工智能驱动的计算方法。后者正在改变RNA结构研究,但依赖于大规模、可靠的数据集,而这些数据集目前仍然有限,尤其是在RNA-蛋白质和RNA-DNA复合物方面。为了解决这一不足,我们推出了RNAsolo 2.0(
https://rnasolo.cs.put.poznan.pl/),这是一个开放获取的数据库,整合了经过清洗的无冗余RNA三维结构及其分子间相互作用的详细信息。在原始RNAsolo的基础上(该平台已吸引了约5,600名用户的16,000次页面访问),这个版本增加了基于Rfam的家族分类、2,500个预编译的基准测试集,以及包含序列、二级和三级结构以及扭转角数据的多模态表示。RNAsolo 2.0能够搜索与特定蛋白质、配体或离子相互作用的RNA,并提供它们结合界面的交互式视图。该工具为RNA结构生物学和下一代人工智能驱动的建模提供了一个强大且用户友好的平台。
引言
由于核酶、非编码RNA和基于RNA的疗法的发现,RNA研究迅速发展,这极大地增加了对全面、可访问且最新的资源的需求,这些资源能够记录实验确定的RNA三维结构及其背景信息。对数据需求的高涨进一步加剧了人工智能方法的发展,这些方法的准确性和泛化能力在很大程度上取决于大规模、多样化且高质量的结构数据集的可用性。虽然以蛋白质为中心的数据库长期以来一直支持大规模分析和基准测试,但针对RNA的资源仍然分散且范围有限。例如RNANet [1] 和RNA3DB [2] 提供了有价值的数据集,但它们常常受到过时数据、访问限制或结构-功能关系描述不完整的影响。其他努力,如RNA SWM [3] 和RNA3Desc [4],提供了专门为开发和评估基于AI的RNA三维结构预测方法而定制的关键基准数据,但它们的专注领域有限,不足以系统地覆盖所有实验确定的RNA。最近,RNA-SyntHub及其扩展RNA-SyntHub+ [5] 引入了经过策划的RNA三维模型合成数据集。这些数据集是通过扩散和片段方法生成的,并通过元评分方法进行了筛选,以确保立体化学合理性和结构质量。尽管这些合成资源缓解了数据稀缺问题,对于训练深度学习模型特别有价值,但它们不能替代一个统一、基于实验的、系统整合天然RNA及其多样分子界面的平台。总体而言,这些资源推动了该领域的发展,但在基准测试预测方法、解析RNA家族间的进化关系以及阐明RNA在生物学中多样角色的分子界面方面仍不完整。
同时,最近的评估表明,RNA三维结构预测仍然是一个重大挑战。RNA-Puzzles和CASP-RNA实验的结果显示,全局结构往往可以准确捕捉,但局部细节(如环、连接点和扭转角)通常不准确[6],[7],[8],[9],[10]。基准测试研究[11],[12]证实,当前方法的表现存在显著差异,并且仍然难以捕捉精细的结构特征和准确地对三维模型进行排序。即使是最近引入的AlphaFold3扩展到RNA领域,也尚未在一致性上超越传统的以RNA为中心的方法,这反映了RNA的构象复杂性和训练数据集的规模有限[13]。重要的是,这些缺点在很大程度上归因于足够大且可靠的RNA结构数据集的稀缺性,正如[14]中所强调的。综上所述,这些观察结果突显了持续需要高质量实验数据和精心策划的基准测试资源。
为了解决这些不足,RNAsolo项目[15]作为一个多模态数据库被启动,专门用于定期和自动化地从蛋白质数据库(PDB)[16]中聚合RNA三级结构,并使用从Rfam [17]和BGSU RNA 3D Hub [18]提取的分组信息对这些结构进行注释。现在,RNAsolo 2.0在数据粒度和可访问性方面进行了重大改进。这些改进包括扩展到详细的家族和等价类,整合了包括与离子、配体、蛋白质和DNA的相互作用的全面分子背景信息,并提供了支持高级搜索、下载和可视化功能的用户友好型网络访问。该数据库可在
https://rnasolo.cs.put.poznan.pl/获取,每周四都会自动更新。其架构已经现代化,以实现强大、安全和可扩展的部署,支持定期更新和无缝互操作性。
通过提供聚合的、带注释的、具有上下文的RNA结构以及可下载的三级、二级和序列数据(以标准化格式),RNAsolo 2.0为RNA结构生物学社区带来了实质性进展。它支持可复制的计算实验,有助于发现进化关系和界面,并便于对新计算方法进行基准测试。通过整合Rfam数据源并提供更广泛的RNA结构描述格式,只需单击即可轻松下载的基准测试集(ZIP档案)数量从RNAsolo 1.0的192个显著增加到RNAsolo 2.0的2,688个。
数据库构建、内容和特点
RNAsolo 2.0系统是一个全面的平台,用于存储、处理和提供对实验确定的RNA结构及其多模态注释的访问,包括三维原子坐标、二级结构表示、扭转角以及与配体、离子和其他生物分子的分子间相互作用信息。它由三个主要组件组成:关系数据库、计算引擎和网络应用程序。数据库存储
结论
RNAsolo 2.0提供了独特的功能,可以简化对高质量RNA三维结构数据集的访问,这些数据集在其他地方无法以这种预编译的形式获得。该平台允许用户轻松下载与特定RNA家族或RNA等价类相关联的经过清洗的RNA结构档案——包括序列、二级和三级信息——无需手动检索和处理单个PDB条目。除了序列和结构数据外,RNAsolo 2.0还
CRediT作者贡献声明
Bartosz Adamczyk:研究、数据策划、软件开发、可视化、撰写——原始草稿。Pawel Boinski:数据策划、验证、可视化、撰写——原始草稿。Marta Szachniuk:概念化、研究、方法论、资金获取、监督、验证、撰写——原始草稿、审稿和编辑。Maciej Antczak:概念化、研究、方法论、软件开发、监督、验证、撰写——原始草稿、审稿和
致谢
本工作得到了波兹南工业大学和波兰科学院生物有机化学研究所的支持——资金来自法定拨款。BA、MA和MS获得了波兰国家科学中心(项目编号2024/53/B/ST6/02789)的支持。资助者在研究设计、数据收集与分析、发表决定或手稿准备过程中没有发挥作用。