
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生物神经网络与深度强化学习的动态可塑性及样本效率比较研究:基于体外培养系统的Pong游戏模拟
【字体: 大 中 小 】 时间:2025年08月05日 来源:Cyborg and Bionic Systems 18.1
编辑推荐:
本研究通过DishBrain系统将体外培养的神经网络与高密度微电极阵列结合,在实时闭环游戏环境中探究了生物神经网络的动态可塑性。研究发现,在样本受限条件下,即使是简单的生物神经网络在Pong游戏中的表现也优于深度强化学习算法(DQN、A2C、PPO),揭示了生物系统更高的样本效率,为理解生物智能的独特优势提供了新视角。
在人工智能飞速发展的今天,深度强化学习(Deep Reinforcement Learning, DRL)算法已在围棋、电子游戏等领域展现出超越人类的表现。然而,这些算法仍面临样本效率低下、计算资源消耗大等瓶颈问题。与此同时,生物神经系统展现出的高效学习能力令人惊叹——人脑仅需少量样本就能掌握复杂技能,且能耗仅为计算机的百万分之一。这种巨大差异促使科学家思考:生物智能的奥秘究竟何在?能否通过研究简单生物神经网络揭示其高效学习的机制?
为回答这些问题,研究人员利用创新的DishBrain系统开展了一项开创性研究。该系统将体外培养的人类和小鼠皮质神经元与高密度微电极阵列(HD-MEA)整合,构建了一个实时闭环的Pong游戏模拟环境。通过比较生物神经网络与三种主流深度强化学习算法(Deep Q Network, DQN;Advantage Actor-Critic, A2C;Proximal Policy Optimization, PPO)的表现,研究首次在相同任务框架下直接对比了生物与人工系统的学习效率。相关成果发表在《Cyborg and Bionic Systems》期刊。
研究采用多项关键技术:1)使用人类诱导多能干细胞(hiPSC)和小鼠胚胎(E15)来源的皮质神经元构建体外培养系统;2)通过HD-MEA实现毫秒级精度的实时闭环刺激与记录;3)开发基于t-SNE和Tucker分解的降维方法分析1024通道的神经活动;4)设计三种不同信息密度的输入方案(图像输入、球拍&球坐标输入、球坐标输入)评估DRL算法;5)采用功能连接网络分析揭示神经可塑性变化。
研究结果部分,"Functional connectivity analysis"显示:在全通道分析中,游戏状态(Gameplay)相比静息状态(Rest)在节点数、连接数、网络密度等6项指标上存在显著差异(P<0.05)。通过低维嵌入技术发现,游戏过程中神经网络呈现明显的动态重组,而静息状态无此变化。"Network construction"部分通过30个代表性通道构建的功能连接网络显示,游戏过程中神经连接强度平均增加23.7%,模块化指数显著降低(P=1.005e-4),表明网络趋向整合化。
"Comparison in performance"部分获得关键发现:在70次游戏回合的限制下,人类皮质细胞(HCC)和小鼠皮质细胞(MCC)的平均击中次数分别比表现最好的DRL算法高41%和38%(P<0.001)。生物神经网络的相对改进率(relative improvement)显著高于所有DRL算法(P<0.001),其中HCC组达到最高改进水平。值得注意的是,即使当DRL算法接收更稀疏的输入信息(模拟生物系统的8通道刺激)时,其表现反而更差,这与"诅咒维度"理论的预期相反。
"Examining impact of paddle movement speed"部分揭示:虽然DRL算法的球拍移动速度平均比生物系统快3.2倍(P<0.001),但这并未转化为更好的游戏表现,表明生物系统具有更优化的运动控制策略。延长训练至数万回合后,DRL算法最终能超越生物表现,但所需样本量是生物系统的400倍以上。
在讨论部分,研究指出这些发现具有多重意义:首先,证实了即使简单生物神经网络也具备DRL算法难以企及的样本效率,支持"生物智能优势不仅源于规模"的观点。其次,动态功能连接分析为理解神经可塑性提供了新视角,低维嵌入方法(t-SNE/Isomap)能有效捕捉学习相关的网络重组。最后,研究建立的比较框架为未来生物-人工混合智能系统开发奠定了基础。
这项研究突破了传统神经科学与人工智能的学科界限,首次在统一任务框架下实证比较了生物与人工系统的学习机制。其价值不仅在于发现生物神经网络的样本效率优势,更开创了"合成生物智能(SBI)"这一新兴研究范式。未来,通过解析生物网络的高效学习机制,可能催生新一代仿生算法;而培养神经网络的工程化应用,则为开发低功耗自适应系统提供了全新思路。正如研究者所言,这项工作"为理解智能的本质打开了一扇新窗口"。
生物通微信公众号
知名企业招聘