
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MERMaid:基于视觉语言模型的化学文献多模态反应挖掘系统
【字体: 大 中 小 】 时间:2025年07月27日 来源:Matter 17.3
编辑推荐:
本研究针对化学文献中大量反应数据被锁定在PDF格式难以提取的难题,开发了MERMaid多模态反应挖掘系统。研究团队通过整合视觉分割模型VisualHeist、视觉语言模型DataRaider和知识图谱构建模块KGWizard,实现了从跨PDF图形到知识图谱的端到端转换,在三个化学领域达到87%的提取准确率。该系统突破了传统文本挖掘工具的局限,为化学数据库构建和自主实验室系统提供了关键技术支持。
在化学研究日益数据驱动的今天,一个令人尴尬的现实是:大量宝贵的实验数据仍被"锁"在静态的PDF文献中。特别是那些包含关键反应条件的图表和示意图,虽然承载着最核心的科学信息,却因为PDF格式缺乏语义结构而难以被机器读取。这种"数据孤岛"现象严重阻碍了化学知识的系统化整合,也制约了人工智能在化学发现中的应用。如何突破这一瓶颈,实现化学反应数据的自动化提取和结构化,成为化学信息学领域亟待解决的难题。
多伦多大学化学系、南洋理工大学化学与生物医学工程学院等机构的研究人员开发了名为MERMaid(多模态反应挖掘助手)的创新系统,通过视觉语言模型(VLM)技术实现了化学反应数据的自动化提取和知识图谱构建。这项突破性研究发表在《Matter》期刊上,为化学文献的智能化处理提供了全新解决方案。
研究团队采用了三个关键技术模块:(1)基于Florence-2模型优化的VisualHeist工具,实现图形和表格的高精度分割(准确率≥93%);(2)结合GPT-4o的DataRaider模块,通过创新的两步提示框架提取反应条件参数(准确率>92%);(3)KGWizard知识图谱引擎,采用检索增强生成(RAG)技术实现化合物名称标准化和关系构建(准确率96%)。系统测试使用了包含100篇文献的MERMaid-100数据集,涵盖有机电合成、光催化和有机合成三个领域。
研究结果显示:
VisualHeist模块在图形分割方面显著优于现有工具(如LayoutParser和PDFigCapX),在历史文献(最早至194年)和补充材料等复杂场景中保持稳定性能。如图2所示,该模块成功解决了图形与标题错位、高密度脚注等挑战性问题。
DataRaider模块通过创新的"自主填空"推理能力,能够处理反应条件部分缺失的情况(如图3所示)。该系统在12类通用参数(如溶剂、温度、产率)和14类领域特定参数(如阳极、光催化剂)提取中均表现优异,特别在脚注关联解析方面展现出独特优势。
KGWizard构建的知识图谱包含数千个节点和边关系(图4),通过PubChem查询和RAG技术实现了化合物名称标准化,解决了如"MeCN/ACN/CH3CN"等命名差异问题。系统生成的图谱可直接用于下游分析和自主实验室系统。
这项研究的创新性在于首次实现了化学反应数据的端到端自动化提取和结构化。与现有工具(如ChemDataExtractor和OpenChemIE)相比,MERMaid突破了传统文本挖掘的局限,真正解决了图形数据的提取难题。系统87%的整体准确率已超过人工提取的典型水平(约80%),为化学知识的大规模数字化提供了可行方案。
特别值得关注的是,MERMaid的模块化设计使其具备良好的扩展性。虽然当前版本在复杂Markush结构识别和多步合成路线处理方面仍有提升空间,但其技术框架已为未来功能扩展奠定了基础。这项工作不仅为化学文献挖掘设立了新标准,也为其他科学领域的多模态数据提取提供了重要参考。随着自主实验室的快速发展,MERMaid这类系统将成为连接历史文献与未来研究的关键桥梁,加速数据驱动的科学发现进程。
生物通微信公众号
知名企业招聘