
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PLGA纳米颗粒小分子递送系统的配方数据集:加速药物递送系统开发的开放资源
《Scientific Data》:A formulation dataset of poly(lactide-co-glycolide) nanoparticles for small molecule delivery
【字体: 大 中 小 】 时间:2025年07月11日 来源:Scientific Data 5.8
编辑推荐:
本研究针对聚乳酸-羟基乙酸共聚物(PLGA)纳米颗粒配方设计过程中依赖试错法、缺乏开放数据的问题,通过文献挖掘构建了包含433种配方、65种小分子的综合数据集。研究人员系统收集了18项关键配方参数和3项性能指标,为机器学习辅助的纳米药物开发提供了重要数据基础,显著推进了数据驱动的药物递送系统优化进程。
在药物递送领域,如何突破传统制剂的局限性始终是科学家们面临的重大挑战。特别是对于抗癌药物等治疗窗窄的小分子化合物,其溶解性差、靶向性弱、毒副作用大等问题严重制约着临床疗效。聚乳酸-羟基乙酸共聚物(poly(lactide-co-glycolide), PLGA)纳米颗粒作为最具前景的递送系统之一,虽能通过纳米尺寸效应和可控释放特性解决部分难题,但其配方设计却长期陷入"试错法"的困境——研究人员需要反复调整数十种参数组合,既耗费时间又增加研发成本。更棘手的是,这个领域长期缺乏系统、开放的配方数据库,严重阻碍了人工智能等新技术的应用。
为破解这一困局,多伦多大学Leslie Dan药学院(University of Toronto, Leslie Dan Faculty of Pharmacy)的Anita Goren团队开展了开创性工作。研究人员通过系统分析812篇文献,最终精选59篇研究构建出包含433种PLGA纳米颗粒配方的数据集,涵盖65种小分子药物。这个目前最全面的开放数据库详细记录了18项关键参数,包括聚合物分子量(polymer_MW)、乳酸/羟基乙酸比例(LA/GA)、药物logP等理化性质,以及封装效率(encapsulation efficiency, EE)、载药量(loading capacity, LC)等性能指标。相关成果已发表在《Scientific Data》期刊,为加速纳米药物开发提供了重要数据基础设施。
研究团队采用多阶段技术路线:首先通过Web of Science检索812篇文献,设定纳米沉淀法制备、小分子负载、无主动靶向等严格筛选标准;随后运用RDKit工具包计算药物分子描述符,并通过Mark-Houwink方程估算未直接报道的聚合物分子量;最后采用自主研发的分析代码进行数据分布和相关性研究。特别值得注意的是,团队建立了交叉验证机制,由两名研究者独立提取数据以确保准确性。
【Background & Summary】部分揭示,数据集中的配方参数呈现明显聚集特征。如图2所示,药物logP值多集中在2-5区间,反映出现有研究对小分子亲脂性的探索范围有限。而图3的相关性矩阵则显示,药物/聚合物比例(drug/polymer)与LC存在强正相关(r>0.7),这为配方设计提供了量化依据。
【Methods】章节详细说明了数据工程的严谨流程。对于缺失的EE或LC值,团队通过质量平衡方程进行互算;pH值被离散化为-1到1的三级标度;聚合物的特性粘度通过Mark-Houwink方程转换为分子量。这些处理既保留了原始数据的真实性,又增强了数据的可计算性。
【Data Records】部分提供的5个数据集文件构成完整数据生态系统。除核心配方数据(NP_dataset.csv)外,还包含小分子结构(NP_dataset_small_molecules.csv)、表面活性剂HLB值等辅助数据,这种模块化设计极大提升了数据的可扩展性和复用价值。
【Technical Validation】强调团队采用双人背靠背数据提取策略,有效控制了人工采集的误差风险。而代码开源的举措(存放于Mendeley Data)则确保了研究方法的可重复性。
这项研究的突破性价值体现在三个维度:其一,填补了PLGA纳米颗粒领域开放数据集的空白,为机器学习辅助配方设计奠定基础;其二,通过系统性数据分析揭示了参数间的隐藏规律,如LA/GA比例与粒径的中度相关性(r≈0.4)为后续机制研究提供线索;其三,建立的标准化数据处理流程为其他递送系统数据库建设提供了范本。正如通讯作者Christine Allen指出,该数据集将显著降低纳米药物开发的数据门槛,推动从经验驱动向数据驱动的范式转变。随着更多研究者贡献数据,这个动态更新的资源库有望成为PLGA配方设计的"罗塞塔石碑",加速下一代智能递送系统的诞生。
生物通微信公众号