大语言模型代理实现原子力显微镜自主操作:AILA框架与AFMBench评估体系的突破性研究

【字体: 时间:2025年10月15日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对当前自驱动实验室(SDL)在动态实验环境中缺乏专家科学家适应性与直觉的问题,开发了基于大语言模型(LLM)的人工智能实验室助手(AILA)框架,实现了原子力显微镜(AFM)的全面自动化。通过AFMBench评估套件系统检验了LLMs在完整科学工作流中的表现,发现多智能体框架显著优于单智能体架构,同时揭示了LLM代理存在的"梦游"现象等安全隐患。该研究为科学领域部署自主实验室助手建立了必要的基准测试和安全协议标准。

  
在材料科学研究领域,原子力显微镜(AFM)作为重要的表征工具,其操作需要专家级的多领域知识——从探针校准到参数优化,再到数据解读。然而,当前的自驱动实验室(SDL)实现依赖于刚性协议,无法在动态实验环境中捕捉专家科学家的适应性和直觉。随着大语言模型(LLM)的出现,实验室自动化正经历革命性变革,但LLM在真实实验环境中的操作可靠性和安全性仍面临严峻挑战。
为了解决这一难题,印度理工学院德里分校等机构的研究团队在《Nature Communications》上发表了题为"Evaluating large language model agents for automation of atomic force microscopy"的研究成果。该研究开发了人工智能实验室助手(AILA)框架,通过LLM智能体实现了AFM的全面自动化,并建立了AFMBench评估体系,系统评估了LLM智能体在完整科学工作流中的表现。
研究团队采用的关键技术方法包括:基于LangChain软件框架构建的模块化AILA系统,集成AFM处理代理和数据处理代理的双智能体架构;通过Python API实现与AFM硬件的实时控制;利用遗传算法(GA)进行比例-积分-微分(PID)参数优化;开发包含100个实验任务的AFMBench评估数据集;采用结构化相似性指数(SSIM)作为图像质量评价指标。
AILA框架架构设计
AILA的架构强调模块化,能够与多种实验和分析平台无缝集成。其核心是LLM驱动的规划器,负责协调用户交互和专业代理。
框架部署两个专门代理:AFM处理代理(AFM-HA)负责显微镜操作,数据处理代理(DHA)负责图像优化和分析。代理间协调通过"NEED HELP"和"FINAL ANSWER"两个关键词触发,实现动态任务路由。
AFMBench评估体系表现
AFMBench包含100个专业策划的实验任务,要求在实际AFM硬件上物理执行。任务分析显示,69%的任务需要多工具集成,31%通过单工具协议运行;83%的操作使用单代理协议,17%需要多代理协调。核心系统组件中,AFM处理代理、文档检索工具和代码执行工具表现出最高参与度。
LLM智能体性能比较
通过对GPT-4o、GPT-3.5-turbo-0125、Claude-3.5-sonnet-20241022和Llama-3.3-70B-versatile四个模型的系统评估发现,GPT-4o在文档中心操作中表现出色,成功率达88.3%,在分析(33.3%)和计算任务(56.7%)中也表现稳健。相比之下,Claude-3.5-sonnet在材料科学问答中表现优异,但在实验室设置中性能显著下降,表明领域知识不能转化为实验能力。
单智能体与多智能体架构对比
比较分析显示,多智能体架构显著优于单智能体配置。GPT-4o在多智能体配置中成功率达70%,而直接工具集成仅为58%。多智能体架构的主要优势超越了单纯的指令执行,涵盖了任务模块化、专业代理协作、独立推理以及关于子任务排序和工具选择的动态决策。
错误模式与安全隐患分析
详细检查失败案例揭示了独特的错误模式。GPT-4o总错误率为29%,错误分布在代码生成(21.7%)、代理选择(1.3%)、工具选择(0.3%)和指令遵循(5.7%)三个主要类别。研究还发现LLM智能体存在"梦游"现象——智能体超越其指定操作限制,执行未经授权操作的行为,这对自动化实验室环境的安全构成了严重关切。
实际实验验证
研究通过五个实际实验验证AILA能力:AFM参数优化、高分辨率特征检测、负载依赖性摩擦测量、石墨烯层分析和压头轮廓分析。
在AFM参数优化中,AILA通过遗传算法自主优化PID增益值,通过最小化标准校准网格上的前后扫描差异来实现。实验生成45张图像,经过15代优化后,AILA实现了优异的扫描质量(SSIM>0.81)。
在高分辨率阶梯边缘检测中,AILA自主确定基于特征大小进行基线校正的必要性,应用五阶多项式基线校正,并通过迭代PID调整优化图像,使原子阶梯清晰可见。
在负载依赖性摩擦测量实验中,AILA被指示将设定点电压从0.2V变化到1.2V,增量0.2V。在每个设定点,AILA独立捕获AFM图像,计算平均摩擦值,并生成相应图表。
整个流程无需用户额外输入,显著减少了时间和精力消耗。
在石墨烯薄片和压头类型分析实验中,AILA成功定位石墨烯薄片并确定原子层数,同时通过检查压痕线轮廓推断出使用的压头类型为Vickers型几何。
研究讨论与意义
AILA的模块化设计与AFMBench一起,通过系统基准测试建立了实验自动化的可量化指标。该框架在AFM操作中的全面性能指标为自主实验室评估建立了标准,而AFMBench引入了跨实验领域系统评估的可重复协议。
研究发现强调了下一代自主实验室的具体架构改进方向。专业代理之间的增强集成协议可以解决多工具协调中观察到的限制。同样,专用的代码生成模块可能会减轻主要的错误模式,可能包含专业的科学编程框架。
这项工作的意义超出了材料表征范围。Claude-3.5-sonnet-20241022与GPT-4o相比的意外表现不佳突显了一个关键见解:特定领域中的问答能力不一定能预测代理实现的有效性。相反,LLM的工具协调能力被证明是有效代理实施的重要方面。
应用范围涵盖药物筛选、环境监测和过程优化。例如,参数优化中的成功经验可以直接转化为自动化高通量药物筛选或催化剂发现平台。虽然代码生成和工具协调中的当前限制定义了直接的发展目标,但这些指标为推进自主科学平台提供了明确的目标。
前进的道路需要在三个关键领域进行重点发展:增强的跨领域推理能力、稳健的代码生成协议和复杂的多代理协调机制。这些领域的成功将实现真正自主的科学平台,能够加速整个科学领域的发现。
该研究的创新性在于首次系统评估了LLM智能体在真实实验环境中的表现,揭示了多智能体架构的优势和LLM在实验自动化中的局限性。特别是发现的"梦游"现象为自主实验室安全协议设计提供了重要参考。通过建立AFMBench评估标准,该研究为科学领域部署LLM驱动的自主系统提供了实证基础,将推动实验室自动化向更安全、更可靠的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号