《Bioinformatics》:Integrating curation into scientific publishing to train AI models
编辑推荐:
为解决生物医学文献数据提取与结构化标注的难题,研究人员开展了“将策展整合到科学出版中以训练AI模型”的主题研究。他们通过将多模态数据策展嵌入学术出版流程,构建了包含超过62万条标注生物医学实体的SourceData-NLP数据集。该研究不仅评估了其在命名实体识别(NER)和实体链接(NEL)任务上的效用,还引入了一种新颖的、用于解释实验设计中实体角色的语义任务。这项研究的意义在于,它提供了一个独特的、多模态的资源,为生物医学文本挖掘和AI工具开发提供了蓝图,有望加速科学发现。
论文解读
在生命科学领域,科学家的生产力已经达到了前所未有的水平。仅PubMed就收录了超过3800万篇文章,并且每年还有数百万篇新文章被索引。这种信息爆炸式的增长给研究人员带来了巨大的挑战,他们不仅要跟上本领域的最新突破,还要在更广阔的科学生态系统中保持知识更新。然而,传统的文献阅读方式效率低下,且容易导致研究人员陷入“专业化诅咒”,即越来越局限于狭窄的领域,从而阻碍了跨学科的洞察与合作。
为了应对这些挑战,将科学知识从文献中整合到可用的、结构化的、可查询的资源中,成为了生物医学研究的一个重要目标。自然语言处理(NLP)技术在其中扮演着至关重要的角色,它能够大规模地计算处理文献,从非结构化文本中提取结构化信息。经典的任务包括命名实体识别(NER)和命名实体链接(NEL)。NER专注于识别文本中感兴趣的实体(如基因、蛋白质、化学物质),而NEL则对这些实体进行消歧,并将它们分配给受控词汇表或数据库标识符中的标准化术语。这些过程可以潜在地提高科学发现报告的可靠性和严谨性,同时通过支持已发表信息的更好组织、检索和整合,来减轻信息过载,并促进研究的可重复性和透明度。
尽管生物策展领域已经付出了巨大努力来编译大型的、经过标注的数据集,但这些资源仍然相对较小且专业化,通常来源于摘要。在生命科学中,图表是支持论文主张的关键证据来源,图注提供了相应实验的详细、自然语言描述。这为利用图表策展来捕获实验设计和研究数据的重要信息提供了一个机会,其粒度比摘要所能允许的更细。
然而,将策展嵌入出版过程,包括作者的参与,可能具有挑战性,因为它会给出版工作流程带来复杂性,并可能给作者和编辑人员带来额外的工作量和延迟。但它也提供了一个机会,可以从源头上解决术语歧义问题,并在发表后立即公开提供经过策展的数据,从而促进信息检索和二次分析。此外,经过策展的结构化数据的发布,为训练或基准测试人工智能模型提供了有用的标记数据源。
为了填补这一空白,来自EMBO和佐治亚理工学院的研究团队在《Bioinformatics》上发表了一项研究,他们通过将科学图表的策展直接整合到出版工作流程中,构建了一个名为SourceData-NLP的大型多模态数据集。该数据集将每个图版图像与其相应的图注片段配对,并根据SourceData策展框架进行标注,并通过作者的反馈进行完善。这些标注涵盖了从分子到组织乃至整个生物体的生物实体,使数据集具有固有的多尺度特性。SourceData-NLP的一个显著特点是,它区分了被测量的实体与受控实验干预目标的实体,从而捕获了用于因果检验的扰动实验的关键设计方面。这种细节水平能够更深入地洞察所报告发现的性质,使SourceData-NLP区别于其他生物医学语料库。
关键技术方法
为了构建SourceData-NLP数据集,研究人员采用了一种将策展整合到学术出版流程中的方法。该过程由经过培训的策展人执行,他们可以访问整篇论文,并使用定制的在线策展工具,遵循详细的标注指南。策展过程包括三个主要步骤:将复合图分割成连贯的图版(图分割)、对生物实体进行标记并链接到外部标识符(NER和NEL任务),以及根据实体在特定实验设计中所扮演的角色对其进行分类。为了确保数据质量,研究团队实施了一个包含内部质量控制(由二级策展人审查)和外部验证(通过作者咨询)的两步质量控制流程。该数据集最终包含来自3,223篇文章的18,689个图表,分割成62,543个经过标注的图版,共计801,818个实体标注。
研究结果
数据集生成与验证
SourceData-NLP数据集描述了发表在细胞和分子生物学领域的科学图表中展示的实验。标注的重点是与数据科学意义相关的生物实体以及基础的实验设计。该数据集的一个关键创新在于,它定义了生物实体在实验中的“角色”。这些角色包括:被直接测量或观察的“测量变量”;作为实验干预目标的“受控变量”;用于比较多个实验组的“实验变量”;与实验相关但不适合其他角色的“生物组分”;用于间接测量或观察测量变量的“报告组分”;以及为数据标准化提供基线测量的“标准化组分”。通过这种角色划分,数据集能够捕捉到用于检验因果关系的实验设计的关键信息。
为了确保标注的准确性和可靠性,研究团队实施了一个包含内部质量控制(QC)和外部作者验证的两步流程。内部QC由二级策展人执行,他们检查初级策展人进行的标注,并验证每个实验图版是否至少包含一个测量变量,以及实验测定是否被准确标注。分析显示,大多数稿件(54.1%)在内部和外部验证过程后不需要任何修正,表明大多数标注在初次提交时就达到了很高的准确性。为了评估标注的难度,研究人员进行了一项事后标注者间一致性实验。结果显示,实体类型分配具有很高的可重复性,例如小分子和基因产物的一致性达到99%,组织达到100%。实体角色分配也表现出高度一致性,其中“受控变量”和“测量变量”的一致性分别达到86.0%和83.3%。
数据集概览
SourceData-NLP数据集包含18,689个图表,分割成62,543个经过标注的图版,来源于3,223篇发表在25种期刊上的文章。该数据集涵盖了801,818个实体标注,其中686,846个(85.7%)链接到了外部参考数据库中的标准化标识符。基因产物是主要的实体类别,包含355,433个标注(占总数的44.3%),对应29,001个独特实体。不同实体类型的实验角色分布存在显著差异,反映了它们在实验设计中的不同功能。例如,基因产物在角色分布上相对平衡,30.5%作为受控变量,44.5%作为测量变量,25.0%属于其他角色。而小分子则表现出明显不同的模式,48.6%作为受控变量(通常对应于药物治疗或化学扰动),仅16.4%作为测量变量。相比之下,细胞类型、细胞系和组织主要出现在支持性角色中,而不是作为实验变量。
用于下游NLP应用的语言模型微调
为了展示SourceData-NLP数据集的实用性,研究人员评估了两种著名的生物医学预训练语言模型PubMedBERT和BioLinkBERT在NER任务中的性能。他们比较了这些模型的base(1.1亿参数)和large(3.3亿参数)版本。结果显示,BioLinkBERT获得了最高的总体F1性能,但大型PubMedBERT在大多数实体类别中表现出最低的标准差,表明其预测更稳定。总体而言,比较不同实体类别发现,性能差异显著:基因产物、细胞系、生物体和小分子获得了较高的F1分数,而亚细胞组分、细胞类型、疾病和实验测定的表现则不太一致。
此外,研究人员还引入了一项新颖的NLP任务,旨在确定生物医学实验中实体的实验角色。他们探索了三种不同的训练方法:仅基于上下文的方法、标记实体的方法以及单步方法。结果表明,采用标记实体和仅基于上下文的方法的模型,在准确识别复杂实验设置中生物实体的细微角色方面表现出强大的能力。在基因产物和小分子上,标记实体方法始终能产生最佳结果,BioLinkBERT-large分别达到了85.7%和83.4%的最高校正F1分数。
复合图的多模态分割
研究人员还利用SourceData-NLP数据集构建了一个多模态流程,用于将复合图分离为其组成图版,并将它们与相应的图注文本进行匹配。他们采用了一个两步程序:首先,使用对象检测算法(YOLOv10)将图分割成图版;其次,利用多模态大语言模型(GPT-4o)从图注中提取相应的图版描述。经过微调的YOLOv10模型在测试集上实现了mAP50=98.2%和mAP50-95=87.0%的性能。在第二步中,图注-图版匹配的准确率达到了97.4%。
研究结论与讨论
SourceData-NLP展示了将策展整合到出版过程中的好处。通过以图表为中心的标注方法,研究人员在分子生物学和生命科学领域产生了目前可用的最广泛的NER和NEL数据集之一。SourceData-NLP的规模和实用性,用于训练大型语言模型,强调了这种方法在增强科学数据的可访问性和可重用性方面的潜力,同时也加速了用于科学发现的AI工具的开发。
该数据集的一个独特优势在于,它定义了一个新颖的NLP任务,即解释实体在给定实验设计中的角色。研究表明,这项严重依赖上下文信息的任务,可以被有效地学习,以确定一个基因产物是被测量的(“测量变量”),还是实验扰动的目标(“受控变量”)。在生物医学研究中,检验因果假设是研究生物过程和人类疾病分子机制的关键实验方法。因此,在SourceData-NLP上训练的模型,应该有助于从文献中大规模提取因果假设,并追踪其与已发表科学结果的联系。
尽管该研究取得了显著成果,但也存在一些局限性。首先,该数据集存在人类策展固有的噪声。其次,“测量变量”和“受控变量”之间的区分只是捕捉实验背后因果假设的第一步,它仍然是一个近似值,因为标注没有捕获实验组的完整结构。此外,生成数据集的期刊范围主要集中在细胞和分子生物学领域,因此其覆盖范围存在一定的偏向性。
展望未来,将医学和临床论文纳入其中,或与分子生物学以外的期刊合作,将是减轻当前偏向性的可能方法。此外,利用数据增强策略,如生成模型或本体引导的数据增强,可以扩展数据集以改善覆盖范围并减轻偏差。另一个有前景的方向是,利用SourceData-NLP构建一个专门为分子生物学量身定制的大型知识图谱。通过结合从新颖任务中获得的语义角色,可以系统地识别生物实体在分子生物学文献中发表的科学结果中的实验角色。这使得能够以与“受控变量”和“测量变量”相关的实体的形式来表示实验设计。因此,可以构建一个以实体为节点、以代表所报告实验中检验的因果假设的有向关系为边的知识图谱,从而促进机制发现和假设生成。