MORE-Q 数据集:解锁分子嗅觉受体奥秘,助力下一代传感设备飞跃

【字体: 时间:2025年02月23日 来源:Scientific Data 5.8

编辑推荐:

  为解决 BOV - 受体系统研究中缺乏量子力学描述及相关难题,研究人员开展了 MORE - Q 数据集的研究。他们构建出该数据集,涵盖丰富信息。此成果有助于理解分子相互作用,推动下一代嗅觉受体传感设备发展,值得科研读者一读。

  
在当今科技飞速发展的时代,人工智能的进步可谓日新月异。它在物体识别、人脸识别、语音识别以及触觉识别等诸多领域都取得了巨大的突破,给人们的生活带来了极大的便利。然而,在科技的版图上,仍有一块领域等待着人们去深入探索和征服 —— 那就是对我们周围化学环境的解读和预测技术。

想象一下,如果我们能够像识别声音和图像一样,精准地感知和理解周围的化学物质,那该多神奇!实际上,电子鼻(一种模拟生物嗅觉系统的设备)的出现,让这个梦想有了实现的可能。电子鼻已经能够检测挥发性有机化合物(VOCs),而人体散发的 VOCs,也就是体臭挥发物(BOVs),可有着大用处呢!它们就像是人体的 “化学指纹”,蕴含着丰富的健康信息。通过检测 BOVs,我们有望诊断出多种疾病,比如阿尔茨海默病、帕金森病等。就像有位 “超级嗅探者”,竟然能从皮脂中分辨出与帕金森病相关的 BOVs 和正常皮肤的 BOVs,这可充分展示了人体嗅觉系统强大的感知能力。也正因如此,在医疗诊断领域,对能够快速、可靠地检测 BOV 分子的传感材料的需求越来越迫切。

虽然人们在研究单个气味(BOV)分子和分子受体方面付出了不少努力,也建立了一些相关的数据库,但对于 BOV - 受体系统中物理和化学相互作用的准确描述,仍然缺乏足够的信息。要知道,了解这些相互作用,对于深入理解仿生嗅觉系统至关重要,就像打开了一扇通往设计更高效传感应用受体的大门。此前的一些数据集,虽然提供了嗅觉受体相关的数据,但都没有从量子力学(QM,一种研究微观世界物质运动规律的理论)的角度来处理气味受体系统中的相互作用。而且,在研究气味受体系统与基底(比如石墨烯)的相互作用时,也面临着精度不够的问题。所以,开发一个能提供 BOV - 受体系统结构和电子性质 QM 描述,以及它们与传感材料相互作用的数据集,成为了科研人员亟待解决的问题。

为了攻克这些难题,来自相关研究团队的研究人员在《Nature Scientific Data》期刊上发表了题为《MORE - Q, Dataset for molecular olfactorial receptor engineering by quantum mechanics》的论文。他们成功开发了 MORE - Q 数据集,这个数据集就像是一把钥匙,为深入研究 BOV - 受体系统打开了新的大门。它涵盖了 18 种粘蛋白衍生的嗅觉受体与 102 种 BOV 分子形成的非共价分子传感器的结构和电子数据,能帮助我们更好地理解分子间和分子内的相互作用,对开发下一代粘蛋白衍生的嗅觉受体传感设备有着重要意义。

在这项研究中,研究人员运用了多种关键技术方法。首先,他们通过查阅大量文献,从 2746 种 BOV 分子中精心挑选出 102 种皮肤相关分子,并对 18 种新合成的粘蛋白衍生受体进行建模。接着,利用半经验方法 GFN2 - xTB 结合 D4 色散校正对分子结构进行优化,在此基础上,使用分子对接和层次聚类等方法筛选出 BOV - 受体系统的有利构型。最后,运用密度泛函理论(DFT)等方法计算各种物理化学性质,从而构建出包含丰富信息的 MORE - Q 数据集。

下面我们来看看研究的具体结果:

  1. BOV 和受体分子的选择:研究人员从两篇重要文献中筛选出 102 种包含重元素 C、S、O 和 N 的皮肤相关 BOV 分子,这些分子的原子数在 7 - 53 之间。同时,他们还对 18 种新合成的粘蛋白衍生受体进行建模,这些受体由糖基修饰并带有芳香基团,原子数在 37 - 102 之间。通过这种筛选和建模,为后续研究提供了合适的研究对象。
  2. MORE - Q - G1 数据集的生成:该数据集包含 102 种 BOV 分子和 18 种分子受体优化结构的量子力学性质。研究人员先使用 GFN2 - xTB 方法优化 BOV 分子结构,将受体直接沉积在石墨烯层上,用 DFTB + 软件优化受体 - 石墨烯系统结构。之后,在 ORCA 软件中采用 PBE + D3 理论水平计算 39 种物理化学性质,从而得到了关于单体的详细信息。
  3. MORE - Q - G2 数据集的生成:此数据集包含 23,838 个 BOV - 受体系统优化结构的量子力学性质。研究人员利用 xTB 软件中的自动相互作用位点筛选(aISS)模块,结合 GFN2 - xTB 参数化和 D4 色散校正进行分子对接,生成大量初始构型。经过筛选、排除不合理构型以及层次聚类等操作,最终确定了 23,838 个非冗余构型,并计算了相应的物理化学性质,为研究分子二聚体提供了丰富的数据。
  4. MORE - Q - G3 数据集的生成:这个数据集包含 1,836 个 BOV - 受体 - 石墨烯系统优化结构的量子力学性质。研究人员选取 MORE - Q - G2 中最有利的二聚体构型,映射到石墨烯层上,用 DFTB + 软件优化形成复杂系统。然后,使用 VASP 软件在 PBE + D3 理论水平计算多种性质,还计算了功函数等关键性质,为研究复杂系统与基底的相互作用提供了重要数据。
  5. 数据集的相互联系:MORE - Q - G1 为整个数据集奠定基础,提供了 BOV 分子和分子受体的基本量子力学性质数据。MORE - Q - G2 基于 G1 的几何结构,通过分子对接构建,包含大量二聚体构型的性质数据。MORE - Q - G3 则是将 G2 中挑选的二聚体沉积到石墨烯表面构建而成,包含复杂系统和底物系统的性质以及结合特征数据。这三个子集相互关联,共同构成了完整的 MORE - Q 数据集。
  6. 数据记录:MORE - Q 数据集以 HDF5 文件格式存储在ZENODO.ORG数据存储库中,包括 MORE - Q - G1.hdf5、MORE - Q - G2.hdf5 和 MORE - Q - G3.hdf5 三个文件。同时提供了 README 文件和相关代码示例,方便用户提取数据并转换为 Python pandas 数据帧进行进一步分析。而且,HDF5 文件有特定的结构,不同类型的数据也有相应的存储格式,便于数据的管理和使用。
  7. 技术验证:研究人员通过多种方式验证了数据集的可靠性。比如,他们选择合适的计算方法,既保证了量子力学性质的准确性,又控制了计算成本。在确定受体在石墨烯层上的构型时,考虑了 π - π 堆积相互作用,选取最稳定的构型用于构建数据集。通过主成分分析(PCA)证明了筛选出的二聚体构型具有代表性。此外,计算功函数等性质,分析其在评估传感性能方面的作用,也验证了数据集的有效性。

在研究结论和讨论部分,研究人员开发的 MORE - Q 数据集为从量子力学角度准确研究各种 BOV - 受体系统的传感机制提供了可能。它不仅包含单体和二聚体构型的全局和局部量子力学性质,还重点关注了吸附能、电荷转移和石墨烯基底功函数变化等相关结合特征。这些丰富的量子力学性质数据,有助于我们更深入地理解 BOV 分子的吸附行为。基于此,科研人员可以开发强大且可迁移的机器学习模型来预测结合特征,快速评估分子系统的传感性能。同时,结合计算得到的量子力学性质数据和生成模型,还能优化和设计新型粘蛋白衍生的分子受体,推动仿生电子鼻的发展。此外,将 MORE - Q 数据集整合到 BOV 分子的感知研究中,有望为理解人类嗅觉的认知过程提供有价值的信息。不过,研究人员也意识到该数据集存在一些局限性,比如目前只涵盖了含有 C、H、O、N 和 S 原子的 BOV - 受体系统,未来可以考虑纳入更多类型的原子,扩大其适用范围;在计算结合特征时,可以纳入更多 BOV - 受体系统的构象,更好地理解构象对嗅觉反应的影响;还可以使用更精确的量子力学方法提高计算精度,但这可能会增加计算成本。

总的来说,这项研究成果意义非凡。它就像一座灯塔,为化学传感和嗅觉研究领域照亮了前行的道路。MORE - Q 数据集的出现,为科研人员提供了一个强大的工具,让我们在探索分子世界的奥秘、开发更先进的传感技术以及理解人类嗅觉的征程中迈出了重要的一步。相信在未来,随着研究的不断深入和数据集的进一步完善,我们将在这些领域取得更多令人瞩目的成果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号