GMG-NCDVAE:利用自然语言处理技术和受限多样性变分自编码器进行引导性从头分子生成
《ACM Transactions on Asian and Low-Resource Language Information Processing》:GMG-NCDVAE: Guided de novo Molecule Generation using NLP Techniques and Constrained Diverse Variational Autoencoder
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本文提出了一种基于变分自编码器的约束分子生成结构,使用SMILES格式结合分子属性条件向量实现可控生成。通过可调参数D控制多样性,结合NLP成熟技术过滤优化分子。实验表明在低多样性(D=1)时模型有效性最高达92.11%,验证了方法对生成分子多样性的有效控制,优于传统SMILES生成方法。
摘要
自然语言处理(NLP)中的文本处理技术在制药、自动化和汽车等多个行业中都有应用。利用变分自编码器进行药物设计是一种流行的数据辅助技术,可以控制分子属性来设计药物分子。该技术生成连续的潜在空间,这些空间可以进行优化。本文介绍了一种基于受限变分自编码器的分子生成结构,该结构使用SMILES格式。该方案包括分子的生成、根据分数对分子进行筛选,以及随后使用成熟的NLP技术确定最优分子。为了生成更具意义的潜在空间,将分子属性的条件向量与分子的SMILES表示相结合。还使用了一个可调参数(多样性D)来控制生成分子的多样性。使用标准数据集对所提出的架构进行了评估。有效性、唯一性和FCD是用于评估模型性能的指标。在多样性水平为1时,所提模型的有效性最高(92.11%)。随着多样性水平的提高,生成分子的有效性降低。这在直觉上是一致的,因为增加多样性可以减少重复分子并提高生成分子的多样性。因此,所提模型能够控制生成分子的多样性。结果清楚地表明,所提出的方法优于其他基于SMILES的方法,并为所需分子的生成提供了新的方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号