LNP Atlas:首个用于核酸递送的脂质纳米粒成分与性质综合数据集发布
《Scientific Data》:A Comprehensive Dataset of Lipid Nanoparticle Compositions and Properties for Nucleic Acid Delivery
【字体:
大
中
小
】
时间:2025年12月21日
来源:Scientific Data 6.9
编辑推荐:
为解决脂质纳米粒(LNP)设计因数据分散而缺乏理性指导的难题,研究人员开展了LNP Atlas数据库构建研究。该研究通过AI辅助数据提取与标准化流程,系统整合了来自63篇文献的1,092个LNP配方,涵盖脂质组成、理化性质、合成参数及生物活性数据。该资源为LNP的结构-活性关系研究及机器学习模型开发提供了关键数据支持,将加速高效核酸递送系统的开发。
在生物医药领域,脂质纳米粒(LNP)已成为核酸递送领域的明星平台。从成功应用于COVID-19的mRNA疫苗(如BNT162b2和mRNA-1273),到治疗遗传性转甲状腺素蛋白淀粉样变性的Onpattro(patisiran),LNP技术已从实验室走向临床,展现出巨大的治疗潜力。然而,LNP的设计并非易事,其复杂的多组分结构(通常包含可电离脂质、PEG化脂质、胆固醇和辅助脂质)使得其组成、理化性质与生物性能之间的关系错综复杂。
目前,LNP研究面临着一个核心瓶颈:数据的高度碎片化。成千上万的LNP配方数据散落在数百篇文献中,缺乏统一的标准和结构化的整理。这种“数据孤岛”现象严重阻碍了研究人员对LNP结构-活性关系(SAR)的系统性分析,也限制了机器学习(ML)和人工智能(AI)等先进技术在LNP优化中的应用。为了打破这一僵局,Seunghun Song、Jueun Baek和Sangjae Seo等研究人员在《Scientific Data》上发表了题为“A Comprehensive Dataset of Lipid Nanoparticle Compositions and Properties for Nucleic Acid Delivery”的研究,正式发布了LNP Atlas——一个全面、标准化的LNP配方数据集。
为了构建LNP Atlas,研究人员首先系统性地收集了2005年至2025年间发表的63篇同行评议文献,筛选出包含详细LNP配方和理化性质数据的1,092个独特配方。随后,他们开发了一套AI辅助的数据提取工作流,利用Claude(Anthropic)模型从文献全文中提取数据并转换为结构化的JSON格式。最后,通过一个全面的Python标准化管道,对脂质命名、SMILES代码、摩尔比、理化参数(粒径、PDI、Zeta电位等)、合成信息和生物活性数据进行了统一处理,确保了数据的一致性和质量。
LNP Atlas数据集包含1,092个独特的LNP配方,涵盖了28个标准化字段,主要分为六大类:成分详情、理化性质、靶向核酸规格、合成信息、生物活性谱和元数据。该数据集在关键参数上具有较高的覆盖率,其中标准化粒径覆盖率达96.1%,包封效率为58.5%,载药量为85.4%。在关键的脂质成分方面,数据集包含了39种不同的可电离脂质,其中97.4%的条目具有完整的SMILES结构注释,为计算化学分析提供了便利。
为确保数据的可靠性,研究人员实施了全面的验证策略。AI辅助提取的工作流通过系统性地将提取的数据与源文档进行比对来验证。此外,专家评审员手动核查了部分提取数据,以识别自动化检查可能遗漏的错误。质量控制程序还包括自动验证规则,如摩尔比总和验证、理化参数范围检查(如粒径在10-1000 nm之外或PDI值在0-1之外)以及合成方法与报告属性之间的逻辑一致性验证。
LNP Atlas数据集可通过Zenodo下载为CSV文件,便于进行批量数据分析和集成到计算工作流中。此外,用户还可以通过LNP Atlas网站进行交互式筛选和搜索。研究人员在使用数据时应注意,虽然数据集提供了全面的配方覆盖,但由于实验条件、表征方法和生物测定系统的差异,不同研究之间的性能指标可能存在差异。
LNP Atlas的发布填补了LNP研究领域的一个关键空白。通过系统性地整合和标准化分散的文献数据,该数据集为研究人员提供了一个强大的工具,以支持数据驱动的LNP配方设计。它有望促进LNP结构-活性关系的深入理解,加速机器学习模型在LNP优化中的应用,并最终推动更有效、更安全的核酸治疗药物的开发。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号