《Chemometrics and Intelligent Laboratory Systems》:Text Mining-Based Profiling of Chemical Environments in Protein–Ligand Binding Assays Across Analytical Techniques
编辑推荐:
蛋白质-配体结合研究中的方法依赖性化学环境分析:基于文本挖掘与化学信息学整合六种技术(SPR/FL/ITC/UV-Vis/CE/ED)的化学特征分布及趋势研究,揭示溶剂、缓冲液等辅助试剂的分子量(log P)与分子量(Da)关联规律,采用K-means聚类和PCA实现方法特异性化学空间比较,提供数据驱动的实验方法选择依据。
Erdem ?nal|Zeynep Kalayc?o?lu
让·莫内大学(Jean Monnet University),科学与技术学院(Faculté des Sciences et Techniques),圣埃蒂安(Saint-étienne),奥弗涅-罗讷-阿尔卑斯大区(Auvergne-Rh?ne-Alpes),法国
摘要
蛋白质-配体结合研究在药物发现和开发中至关重要,因为它们提供了关于分子相互作用的宝贵见解,这些相互作用是生物功能、疾病机制和治疗效果的基础。本研究评估了将文本挖掘与化学信息学相结合,以探索多种分析技术中蛋白质-配体结合研究趋势的潜力。选择了六种广泛使用的分析技术来揭示重要模式。我们利用开源的Python平台(SCOPE)分析了超过33,000篇科学论文和130多万个化学实体。所得数据以二维六边形图(hexbin plots)的形式可视化,展示了每种技术在疏水性(log P)与分子量(Da)方面的趋势。本研究不仅关注配体本身,还旨在描述与蛋白质-配体结合实验相关的整体化学环境,包括溶剂、缓冲液和辅助物质。通过分析不同分析技术中报告的化合物的物理化学性质,我们揭示了方法特异性偏好如何影响实验设计。该分析结合了无监督K均值聚类(unsupervised K-means clustering)、多变量主成分分析(multivariate principal component analysis, PCA)和非参数统计测试(nonparametric statistical testing),以定量比较不同技术相关的化学空间。此外,本研究从数据驱动的角度提供了蛋白质-配体结合研究的方法论和历史趋势。
引言
蛋白质-配体结合研究越来越受到关注,因为它们为理解生物系统、疾病机制和治疗作用背后的分子相互作用提供了关键见解[1]、[2]、[3]、[4]、[5]、[6]。这些研究有助于更高效和更安全地识别和优化药物。因此,蛋白质-配体结合研究对于新型药物的发现和开发尤为重要[7]。
亲脂性是药物候选物设计和优化中的一个关键参数,因为它直接影响溶解度和膜通透性。它在塑造配体的药效学行为和毒理学特性方面起着关键作用,从而影响其整体疗效和安全性[8]。亲脂性通常用log P表示,是一种重要的物理化学性质,它影响化合物的溶解度、膜通透性和生物利用度。log P值越高,表示亲脂性越强;log P值越低或为负值,则表示亲水性越强。配体的log P值对于预测其结合蛋白质疏水口袋的能力、选择溶剂系统、估算生物利用度和膜通透性以及预测非特异性结合或聚集非常重要[9]、[10]。
传统上,回顾像配体-蛋白质相互作用分析这样广泛且动态的领域需要主观选择相关研究,这不可避免地引入了专家偏见。虽然这种选择性常常能带来有价值的见解,但也可能忽略一些微妙但重要的模式。开放获取数据库和人工智能驱动的分析方法的进步现在提供了系统且全面地探索大量科学文献数据集的机会,同时减少了偏见[11]、[12]、[13]、[14]。
在这项研究中,我们首次利用文本挖掘技术分析了配体-蛋白质结合研究的历史趋势和技术进展。尽管之前的基于SCOPE的研究主要集中在配体使用趋势或以配体为中心的化学空间的映射上,但本研究扩展了这一框架,系统地描述了与蛋白质-配体结合实验相关的更广泛的化学环境。通过将关注点从配体本身转移到方法依赖的化学背景上,本研究为蛋白质-配体相互作用分析提供了独特而互补的视角。我们评估了用于研究配体-蛋白质相互作用的分析技术,如毛细管电泳(CE)、电化学检测(ED)、荧光光谱(FL)、紫外-可见光谱(UV-Vis)、等温滴定量热法(ITC)和表面等离子共振(SPR),并根据这些技术的发表频率、化学覆盖范围以及所报告化合物的物理化学性质(log P和分子量)进行了评估。通过从数万篇研究论文中提取和分析数据,我们绘制了每种技术使用情况的演变图,并描述了每种方法通常探索的化学空间。因此,本研究采用了一种数据驱动、以方法为中心的文献分析方法,而非传统的叙述性综述。
小节摘录
通过SCOPE流程进行文献挖掘和描述符提取
在这项研究中,我们利用文本挖掘技术分析了蛋白质-配体结合研究中使用的各种分析技术。从文献中提取的命名实体(Named Entity Recognitions, NERs)与计算得出的或机器学习的物理化学性质(包括分子量、水溶性及极性log P)进行了关联,这些方法基于先前建立的标准[11]、[15]。分析使用了Search and Chemical Ontology Plotting Environment (SCOPE)软件流程[16]
文献概况及所报告化学物质的技术特定分布
对六种分析技术的搜索共发现了33,672篇科学论文,涉及1,322,024种化学物质。其中,SPR技术最为常见,自1991年以来有21,929篇论文和684,408种化学物质被报道;FL技术次之,有6,424篇论文和358,112种化学物质(数据可追溯至1990年);ITC技术贡献了3,164篇论文和143,457种化学物质;UV-Vis技术出现在1,118篇论文中,涉及90,272种化学物质(数据来自1994年以后);CE技术则出现在530篇论文中,涉及28,115种化学物质(数据来自1993年以后)。
结论
在这项研究中,我们进行了系统的大规模文本挖掘,以探索多种分析技术中的蛋白质-配体结合研究趋势。我们的分析不仅关注配体的性质,还揭示了与蛋白质-配体相互作用研究相关的方法依赖性化学环境。不同分析平台上的溶剂系统、缓冲液组成和辅助化合物表现出不同的分子特征,为实际应用提供了新的见解。
CRediT作者贡献声明
Zeynep Kalayc?o?lu:撰写 – 审稿与编辑,撰写 – 原稿撰写,监督,概念构思。Erdem ?nal:研究实施,概念构思
利益冲突声明
作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。
利益冲突声明
? 作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。