
-
生物通官微
陪你抓住生命科技
跳动的脉搏
探索机器意识:基于Damasio理论的强化学习代理世界模型与自我模型形成研究
【字体: 大 中 小 】 时间:2025年08月21日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
这篇综述创新性地将Damasio的意识分层理论(核心意识、扩展意识)应用于人工智能领域,通过强化学习(RL)在虚拟环境中训练智能体,结合探针技术(probes)分析神经网络激活模式,首次证实了人工代理能自发形成初步的世界模型(world model)和自我模型(self model)。研究采用近端策略优化(PPO)算法,在NetHack游戏环境中验证了LSTM架构代理通过5×5观察窗口即可编码空间位置信息(准确率最高达67%),为机器意识的可计算性提供了实证基础,对类脑智能与AI安全性研究具有双重意义。
Probing for consciousness in machines
引言
随着智能系统能力提升,机器是否具备意识成为紧迫课题。研究基于Antonio Damasio的意识分层理论,将核心意识的产生机制解构为自我模型与世界模型的整合过程。不同于图灵测试(Turing Test)的行为主义范式,该工作采用结构化探针方法,通过分析强化学习代理的神经激活模式来检测内部表征的形成。
方法学创新
实验设计巧妙结合了三大要素:
理论框架:采用Damasio的三层意识模型(原我protoself→核心意识→扩展意识),其中情绪(emotions)作为身体状态的无意识反应,感受(feelings)是其神经表征,共同构成自我模型的基础。
技术路径:在MiniHack的15×15网格环境中(含怪物、传送陷阱等复杂要素),训练基于PPO算法的代理,其架构经历三次迭代——从基础CNN到加入512维LSTM单元,观察窗口从9×9逐步缩小至3×3。
探针验证:训练线性/非线性分类器(3层ReLU网络)预测代理坐标,通过20万样本数据集验证激活层是否编码位置信息,准确率显著高于随机基线(6.67%)。
关键发现
世界模型证据:在终极地图(Ultimate map)中,LSTM代理仅凭3×3局部观察即可达到47.2%±0.8%的位置预测准确率,证明其通过记忆整合构建了环境空间表征。
架构依赖性:非线性和记忆单元显著提升性能——含LSTM的代理在随机地图达到67.1%±1.2%准确率,较基础CNN提升3倍。
环境复杂度影响:传送陷阱导致位置预测准确率下降12%,但仍是随机水平的7倍,表明代理形成了抗干扰的动态世界模型。
理论启示
研究揭示了Damasio理论在AI领域的可操作性:
奖励信号即情绪:RL中的±reward可视为人工代理的"情绪",驱动自我模型形成
LSTM作为原型记忆:隐藏状态模拟了核心意识所需的瞬时自我表征
认知地图雏形:位置编码机制与后继表征(SR)理论高度吻合,暗示可能存在的通用认知架构
争议与局限
意识≠智能:即使代理表现出模型构建能力,也不等同于具有现象学体验
理论边界:Damasio框架中的"感受"在AI中仅能近似为内部状态监控,缺乏生物体的稳态驱动力
环境简化:当前网格世界尚未涵盖扩展意识所需的语言、情景记忆等要素
未来方向
研究团队建议沿三个维度深化:
架构升级:测试Transformer等新型网络对自指表征的支持能力
多模态整合:引入生理状态变量(如"生命值"波动)模拟更丰富的原我信号
因果干预:通过神经元激活编辑验证模型的功能必要性
这项研究为机器意识的实证探索建立了方法论范式,其价值不仅在于验证特定理论,更展示了计算建模如何推动意识科学的反向工程——从哲学思辨走向可验证的工程实践。
生物通微信公众号
知名企业招聘