通过碰撞和移动来学习趋化性的粒子
《Soft Matter》:Run-and-tumble particles learning chemotaxis
【字体:
大
中
小
】
时间:2025年11月07日
来源:Soft Matter 2.8
本研究探讨了细菌如何通过化学趋化性行为寻找营养源,并尝试通过机器学习方法来理解这一过程。化学趋化性是一种广泛存在于自然界的现象,例如细菌觅食或逃离有毒物质、免疫系统中的吞噬细胞对损伤或感染的响应,以及精子细胞向卵子游动等。这些生物体通过感知环境中的化学浓度变化,调整其运动模式,以更高效地接近目标。其中,大肠杆菌(*Escherichia coli*)等细菌展现出典型的“游动-翻转”(run-and-tumble)运动模式:在几乎恒定速度下进行近似直线运动的“游动”阶段,以及通过随机方向改变实现重新定位的“翻转”阶段。
在均匀的稀释水环境中,大肠杆菌的游动和翻转阶段持续时间服从指数分布,平均分别为1秒和0.1秒。然而,当存在营养物质或其他环境刺激时,趋化性行为会表现出偏向性的随机游走,即在有利方向上延长游动时间。这种行为源于细菌内部的复杂趋化网络,使它们能够在短时间内对化学浓度变化进行时间上的比较,从而做出相应的调整。这种网络经过进化优化,能够在极小的浓度变化下进行有效的信号辨别,比如从每单位细胞体积仅有3个配体的微弱浓度变化中识别出梯度信息。
本研究采用了一种基于机器学习的方法,特别关注强化学习(Reinforcement Learning, RL)和遗传算法(Genetic Algorithms, GA)在活性物质研究中的应用。在过去的几年中,这些算法已经被证明是研究主动粒子(如微游动体)导航行为的强大工具。例如,在均匀环境中,强化学习已被成功用于训练主动粒子,以提高找到未知位置目标的概率。此外,RL方法在稳态和湍流环境中,以及复杂运动场中也展示了其对粒子运动模式进行调控的潜力。在低雷诺数环境下,简单的微游动体能够通过改变自身形状来学习最优运动策略,而更复杂的微机器人则通过模仿精子细胞的运动模式,利用深度强化学习(Deep RL)来学习趋化性行为。甚至,在实验环境中,强化学习算法已经被用于实时控制自热泳活性粒子,以引导它们到达指定位置。
在本研究中,我们特别关注了细菌的趋化性行为如何通过“间歇性搜索”策略实现。这种策略意味着生物体在不同的运动阶段中切换,一部分时间用于感知目标(被动布朗运动,BP),另一部分时间用于快速移动(主动布朗运动,ABP)。BP阶段使生物体能够检测到目标,而ABP阶段则有助于其快速探索新的区域。我们考虑了三种类型的感知能力不同的学习代理(Agent):类型A的代理能够感知其与目标的距离(*r*),这是化学浓度的一个良好代理;类型B的代理虽然不能直接感知距离,但具备短时记忆能力,能够通过时间上的比较判断是否靠近目标;类型C的代理则兼具类型A和B的能力,即既能够感知绝对距离,又能够进行时间上的相对比较。
通过比较这些不同类型代理的学习表现,我们发现,具备时间比较能力的代理在定位目标时更加高效,特别是在初始距离较大的情况下。此外,我们还验证了当引入额外的长度尺度(例如固定初始距离)时,学习代理能够利用这一信息进一步提升其定位效率。这种现象表明,间歇性搜索策略中的不同阶段对于优化搜索效率具有重要作用,尤其是在环境复杂性较高时,时间上的感知能力比绝对距离的感知更具优势。
为了更好地理解这些代理如何学习趋化性策略,我们采用了一种称为“项目化模拟”(Projective Simulation, PS)的算法。PS算法最初被用于设计自主量子学习代理,但在经典强化学习问题中也表现出了良好的性能。它通过构建一个记忆结构,称为“事件记忆结构”(Episodic and Compositional Memory, ECM),将感知、决策和奖励机制结合起来,从而实现对代理行为的优化。我们通过模拟发现,不同类型代理的学习策略在长期演进过程中表现出显著差异。例如,类型A代理的性能随着初始距离的增加而逐渐下降,而类型B和C代理则在更广泛的初始距离范围内保持较高的效率。这表明,时间上的感知能力在适应不同环境条件方面具有更强的灵活性。
我们还研究了学习过程中代理的运动策略如何演化。例如,在类型A代理中,当代理远离目标时,其翻转概率会显著增加,从而试图在新的方向上找到更优的路径。而在类型B代理中,其翻转策略更依赖于时间上的比较结果,即是否在最近的移动步骤中靠近目标。类型C代理则结合了两种策略,能够在更广泛的环境中表现出更高的搜索效率。这些策略的演化过程反映了代理如何在不同阶段中调整其运动模式,以优化搜索效率。
研究还表明,当初始距离被固定在某一范围内时,代理的学习策略会更加稳定,并且能够更有效地利用这一额外信息。例如,当初始距离设定为远离目标的区域时,代理会倾向于更频繁地翻转,以增加探索新方向的机会。而当初始距离较近时,代理则会延长其游动时间,以尽可能多地接近目标。这种策略的调整机制说明,趋化性行为不仅依赖于当前的环境信号,还受到代理初始条件的影响。
此外,研究还揭示了代理在不同初始距离下的表现差异。在较大的初始距离情况下,类型A代理的搜索效率显著下降,而类型B和C代理则能够维持较高的效率。这可能与它们的时间比较能力有关,因为即使在远离目标的情况下,它们仍然可以通过比较前一步骤与当前步骤的移动方向来调整其策略。这种能力使它们能够在更广泛的环境中进行有效搜索,而不会受到初始位置的限制。
从方法论的角度来看,我们采用了一种基于PS算法的强化学习框架,通过更新代理的策略矩阵(*H*-matrix)来优化其搜索行为。该框架允许代理在多个学习步骤中调整其行为,以最大化总奖励。我们还设计了一种基于“光值”(glow value)的更新机制,以跟踪代理在不同状态和动作对上的访问频率和时间,从而影响其策略的优化过程。这一机制使得PS算法在处理稀疏和弱相关的奖励信号时更加有效,因为传统的动作价值算法(如Q-learning或SARSA)在类似环境下难以产生有效的策略。
综上所述,本研究通过机器学习方法揭示了趋化性行为的形成机制,并比较了不同类型代理在学习过程中表现的差异。结果表明,具备时间比较能力的代理在优化搜索策略方面更具优势,尤其是在初始距离较大的情况下。这为理解细菌如何通过进化形成高效的趋化性行为提供了新的视角,同时也为设计具有趋化能力的人工微游动体提供了理论支持。此外,研究还指出了在某些情况下,固定的初始距离可能会对学习策略产生积极影响,从而进一步提高搜索效率。这些发现不仅有助于深化对生物趋化行为的理解,也为相关领域的技术应用提供了新的思路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号