多模态知识扩展工具ChatGPT-P3DB:融合植物蛋白磷酸化数据库与AI的智能问答系统
《Frontiers in Bioinformatics》:Multimodal knowledge expansion widget powered by plant protein phosphorylation database and ChatGPT
【字体:
大
中
小
】
时间:2025年10月15日
来源:Frontiers in Bioinformatics 3.9
编辑推荐:
本综述系统介绍了ChatGPT-P3DB多模态问答插件的开发与应用,该工具创新性地将ChatGPT-4o与植物蛋白磷酸化数据库(P3DB)耦合,支持自然语言查询和科学图像解析。通过全局入口提示设计,系统实现了磷酸化事件识别、激酶-底物关系(Kinase-Substrate Relationships)和蛋白互作(PPI)等任务的精准分类,并利用图像裁剪(Image-Cropping)和两步提示(Two-Step Prompt)策略提升通路提取精度。研究为生物信息学知识库的智能化交互提供了可扩展框架,显著增强了植物磷酸化研究的可及性和探索效率。
人工智能(AI)与自然语言处理(NLP)技术显著提升了数据库内容检索的直观性和易用性。在生物信息学领域,ChatGPT等大语言模型(LLMs)已被广泛应用于基因组变异知识提取、基因集功能注释、医学数据分析和生物医学交互推理等任务。特别是在生物信息学基础设施和知识库构建中,ChatGPT能够促进从在线资源中积累数据,例如InterPro利用GPT-4模型生成蛋白家族描述和注释,Reactome则尝试了ChatGPT辅助的路径注释流程。然而,通过LLMs和生成式AI模型收集的数据通常存在可靠性问题,需要大量人工验证或额外微调以适应特定领域知识。与此同时,GPT-4的多模态能力为知识库环境下的生物信息学应用带来了新机遇,例如GPT-4V在生物信息学背景下对科学图像进行更高级的解读和理解,这有望扩展生物信息学中常规光学字符识别(OCR)过程在路径识别和分析中的应用。
与传统的“ChatGPT用于知识库”范式不同,本研究通过添加“知识库用于ChatGPT”的链接来加强这种关系。我们介绍了一种小部件应用,它主动将ChatGPT与专业的植物磷酸化数据库耦合,创建了一种双向交互,使得知识库不仅支持而且增强了ChatGPT的性能。这种集成允许知识库引导、纠正和优化用户提示,同时作为模型响应的验证层。通过利用GPT-4的多模态能力,系统在同一框架下支持自然语言查询和科学图像解读。其结果是丰富了用户体验,使ChatGPT成为一个集中且交互的入口点,并通过经过筛选的领域知识得到增强,以提供互补的见解并扩展结构化生物信息学数据的效用。
研究团队长期开发植物蛋白磷酸化数据库(P3DB),使其成为通过ChatGPT-P3DB耦合扩展小部件展示这一创新框架的理想平台或试验台。有几个因素使P3DB特别适合此测试案例。首先,尽管蛋白磷酸化在植物生理和细胞信号级联中起着核心作用,但植物磷酸化数据与哺乳动物系统相比要少得多;因此,当经过筛选的数据库搜索结果有限时,用户经常寻求额外的见解。其次,为了维护用户信任并确保数据完整性,我们刻意避免将LLM生成的内容直接集成到P3DB中。相反,P3DB提供API来增强ChatGPT的功能,同时保持两个系统清晰分离,保留数据库作为实验验证信息源的角色。第三,ChatGPT处理背后的出版物通常比手动审查纳入数据库的出版物更及时和先进。在这些情况下,P3DB有效地指导ChatGPT提示,而ChatGPT同时丰富和扩展了P3DB的覆盖范围,创建了一种互补和互利的耦合。
核心系统使用Python实现,设计运行在Linux命令行环境中,主要作为后端服务通过应用程序编程接口(API)端点与用户交互。该系统利用OpenAI API和内部开发的P3DB API来实现无缝耦合并提高查询精度。它包含两个主要应用:一个促进与植物磷酸化相关的开放式用户查询,另一个支持从包含基因和磷酸化信息的图像中提取和探索通路知识。第一个应用使用P3DB API来标准化和优化任意用户查询,生成有针对性的提示。第二个应用利用P3DB API创建优化的、结构化的提示,将用户提供的通路图像与精心筛选的磷酸化数据联系起来。该系统利用了ChatGPT-4o的文本推理和多模态能力。通过将来替换API,该系统已准备好支持新的ChatGPT模型。
第一个小部件应用处理有关植物磷酸化的一般用户问题。当用户提交查询时,系统首先使用P3DB API通过全局入口提示对问题进行标准化和优化。该提示被发送到ChatGPT API,后者对查询进行分类并确定其是否属于P3DB支持的植物磷酸化主题范围。如果问题被分类为超出范围,则会被记录和报告,确保透明度并维护数据库完整性。对于范围内的查询,系统利用磷酸化特定提示,请求用户确认或提供修订,并返回ChatGPT的答案(附带生成式AI警告给用户)以及来自P3DB API的精确蛋白身份信息和P3DB磷酸化记录链接。这种全局入口策略为用户提供了灵活、详细和可靠的答案,同时避免了任何可能污染权威P3DB数据的情况。
全局入口提示为处理开放式用户问题提供了灵活接口。为了评估此设计的有效性,我们测试了10个来自近期植物蛋白磷酸化出版物的真实案例,将每个案例 formulated 为任意格式的用户问题。结果表明,我们的通用提示设计有效地管理了植物科学领域内的所有10种场景。我们未对此步骤进行系统或详尽的测试,因为我们的系统通过人在回路(Human-in-the-Loop)方法固有地支持用户干预,允许用户在需要时审查和更正标准化后的问题。目前,我们的框架可以支持将用户问题重定向到类别,如磷酸化事件识别(确定蛋白是否可被磷酸化)、激酶-底物关系(特定激酶是否磷酸化给定底物)和蛋白-蛋白相互作用(PPI)问题。不属于这些类别的问题被适当地分类为超出范围。这种方法确保至少能识别不受支持或不相关的查询,并防止其损害知识库的质量和焦点。这个全局入口提示通过这种问题路由思想对未来使用或不同目的具有高度可扩展性。
第二个小部件应用专注于从用户提交的图像中提取和分析生物通路信息。新版ChatGPT-4o中的多模态能力提供了更便捷的方式来实现这种基于图像的功能,不需要用户或开发者具备图像处理技能。接收到通路图像后,系统使用ChatGPT API解读内容并进行初步模型调优以识别相关元素,即基因名称、调控类型和方向,以及磷酸化事件的参与。这将产生结构化为JSON格式的原始输出。该JSON输出经过进一步的元素提取,产生清晰结构化的表格格式摘要,便于用户审查。随后,识别出的基因或蛋白名称可以通过API调用与P3DB筛选的磷酸化数据进行交叉链接。P3DB提供了不同的策略来应用我们预先设计的提示来执行此基于图像的通路提取应用。
全局入口提示将用户的开放式问题标准化为特定的磷酸化相关查询。为了确保第一个应用中使用的这些基于文本的提示的有效性,我们在P3DB数据的辅助下,对每种提示类型 individually 进行了针对性测试和优化。
首先,我们随机选择了100个拟南芥中已知的磷酸化蛋白,使用不同的标识符、完整蛋白名称、TAIR ID、UniProt ID和基因符号,来评估为ChatGPT制定提示时磷酸化事件识别的精度。条形图清楚地说明了这些识别方法之间的性能差异。使用完整蛋白名称实现了最高准确率(100%),表明它为ChatGPT的提示制定提供了最有效的输入。基因符号也表现出强大的性能,准确率为99%,紧随其后的是TAIR ID和UniProt ID,达到98%的准确率。虽然差异在统计学上不显著,但在ChatGPT-5和Gemini 1.5中也观察到了类似的趋势,两者在使用完整蛋白名称和基因符号作为输入标识符时都表现出稍好的性能。这些结果表明,提供更明确和描述性的蛋白信息增强了ChatGPT准确解读和响应磷酸化相关提示的能力。对于其他主要植物物种,即大豆、玉米和水稻,我们观察到了类似的趋势。我们比较了在ChatGPT提示中包含UniProt ID和完整蛋白名称的精度。在所有测试的物种中,完整蛋白名称 consistently 优于UniProt ID,显示出与ChatGPT语言理解能力更好的 alignment。
P3DB包含来自KiC-assay实验产生的激酶-底物关系数据,我们用它来评估拟南芥中不同激酶家族的提示有效性。如图所示,ChatGPT和Gemini正确分类激酶的能力因家族而异,对于如S/T相关激酶超家族、凝集素受体激酶家族和CDPK家族等家族观察到更高的召回率。案例较少的激酶家族可能因抽样偏差而处于劣势。此外,P3DB包含大量拟南芥PPI数据。由于PPI数据集的质量和可用性,以及ChatGPT在类似PPI相关任务上的性能已在先前研究中广泛报道,我们没有对PPI性能进行额外的ChatGPT特定测试。
此外,P3DB支持ID映射API,能够无缝转换各种标识符,如UniProt ID、TAIR ID和基因名称。我们利用P3DB API将蛋白名称动态插入到标准化的用户提示中,增强了用户与ChatGPT的体验。此功能体现了ChatGPT-P3DB耦合的优势,允许在不损害数据完整性或用户灵活性的情况下生成准确且上下文感知的查询。
磷酸化在植物信号通路中起着核心作用,许多植物磷酸化相关出版物包含描述基因激活、抑制和磷酸化事件的复杂图表。然而,用户通常缺乏图像处理技能或工具来提取基因关系并将其与P3DB中筛选的磷酸化数据进行比较。为了弥补这一差距,我们小部件的第二个应用利用ChatGPT-4o的多模态能力来解读通路图,并使用不同设计的基于图像的提示提取结构化的生物学见解。
对于此提示构建和测试,我们手动筛选了来自2019年至2025年间18篇近期同行评审的植物磷酸化出版物的18张通路图像。每张图像都经过手动注释以建立真实数据,包括基因对、调控类型(激活或抑制,直接或间接)和磷酸化参与。然后我们使用ChatGPT-4o(同样适用于ChatGPT-5和Gemini-1.5)评估了两种提示策略:一种是一步法,要求ChatGPT在一个“方便”的单一提示中识别所有相关信息(基因对、调控类型和磷酸化事件);另一种是两步法,将分析分为两个精炼步骤。在两步法中,第一个提示提取基因对和调控类型,第二个提示专门专注于识别视觉磷酸化标记(例如,小的“P”圆圈)以确定每个调控相互作用是否涉及磷酸化(循环处理第一步中识别出的相互作用)。
一步和两步提示在所有指标上都表现得相当好,包括PRGP(调控基因对精度)、ART(调控类型准确率)、APE(磷酸化事件准确率)和RRGP(调控基因对召回率)。两步法在APE上表现出 marginally 更高的性能,但在PRGP上较低。虽然性能提升不大,但由于提示是分开的,两步策略允许在复杂图表中更有针对性地提取和解读磷酸化特定特征。APE从两步精炼中受益最大,证实了单独关注磷酸化标记提高了磷酸化事件检测的准确性。除了准确性,我们还使用18个样本间的标准差评估了一致性。两种类型的提示在实验重复中显示出约10%–20%的变异。
跨单个图像的详细性能细分显示,通路图的视觉复杂性和布局会显著影响ChatGPT准确提取信息的能力。例如,图像12在所有评估指标上 consistently 表现不佳, likely 是由于其高度拥挤的布局和密集的视觉元素,这使得模型难以一次性识别基因关系和磷酸化事件。一些图像还包含远离标记磷酸化事件的基因名称或关系。这些结果突显了多模态提示性能对图像设计的敏感性,并表明对于更复杂的图表可能需要量身定制的策略。相同的图像和提示也在另外两个多模态LLM(即ChatGPT-5和Gemini-1.5)中进行了测试,我们在具有挑战性的图像3、5、10、12、14上观察到了类似的性能模式。在下一节中,我们探索了额外的提示工程技术设计考虑,这些可能提高在视觉挑战性图像上的性能。
为了解决在视觉密集图表(即在图像12中)中观察到的差性能,我们进行了图像裁剪测试,以隔离图中较小、不那么拥挤的片段。结果显示,当使用裁剪后的图像时,不同分数上的性能提高了10%–60%。在所有指标上,裁剪版本都优于原始的一步和两步方法。这证实了原始图表中的杂乱和视觉复杂性阻碍了ChatGPT提取生物关系的能力,并且分割复杂图表可以作为提高多模态解读的实用策略。鉴于图像间的可变性,图像裁剪可能不会在所有情况下产生一致和稳健的收益。
在这个实验中,我们测试了将实际基因名称替换为无意义的随机字母标识符(例如,“ABC”,“XYZ”)是否会影响ChatGPT解析和分析通路信息的能力。替换对性能分数产生了中等影响,通常在不同指标上有10%–20%的变异。这些影响不一致,有时提高有时降低性能,并在一步和两步提示方法中均有观察到,通常落在先前报告的标准差范围内。这表明ChatGPT对通路图的解读主要由图像的结构和视觉特征驱动,而不是依赖于领域特定知识或从真实世界基因名称中学到的关联。换句话说,模型的视觉理解能力有限,足以在没有文献文本先验的情况下运作。
一些先前的研究表明,注入随机噪声字符或使用ASCII艺术格式可以增强ChatGPT在跨模态任务中的鲁棒性。受此观察启发,我们测试了在提示开头包含ASCII样式文本的影响,以评估其是否能在我们基于图像的通路提取任务中增强ChatGPT的性能。然而,如我们的结果所示,ASCII增强的提示没有产生任何 noticeable 改善。事实上,在某些情况下,标准(非ASCII)提示 slightly 优于ASCII版本。这些发现表明,在解读生物通路图像的特定背景下,ASCII格式在ChatGPT4o中没有提供实质性优势。因此,未来的提示优化工作应优先考虑像图像分割和视觉布局增强这样的策略,而不是依赖语法技巧或格式化噪声。
为了评估少样本学习在基于图像的提示设计 context 中的潜在益处,我们进行了一个两样本测试实验。少样本提示是一种常用技术,通过提供几个相关示例来增强LLMs的性能。在我们的测试中,编号1到10的图像被用作主要评估集,而图像11和12,两者都富含多样的通路内容,作为嵌入在提示中的少样本示例。
结果显示跨性能指标的影响各不相同。例如,先前表现不佳的特定图像,如图像9和10,在像ART和APE这样的指标上表现出边际改善。相反,一些图像,如图像3,即使在少样本设置下也继续表现出 consistently 低的性能。
这种可变性表明,虽然结构良好且信息丰富的少样本示例在某些情况下可能有帮助,但它们并不能 consistently 增强所有图像类型的模型性能,显示出上下文敏感性。总之,将少样本提示 incorporation 为我们领域中复杂和视觉密集的科学图表提供的益处有限。可能需要额外的工作来为特定图像类型或布局特征定制少样本设计,以获得更可靠的改进。
ChatGPT-P3DB网络界面,命名为P3DB-AskAI,提供了一个集成平台,支持两个主要功能:(a)基于自然语言的通用查询和(b)基于图像的通路解读。这些模式通过用户友好的侧边栏面板访问,允许在文本和图像输入工作流之间简单切换。每个模块包括一个简短的交互式教程和示例,引导用户了解其功能,实现与磷酸化相关任务的直观交互。
自然语言查询界面设计用于接受广泛的用户问题,提供灵活和通用的交互体验。用户首先输入与植物磷酸化相关的自由形式问题。系统自动执行物种检测、蛋白名称或ID识别以及查询分类。根据内容,界面将输入标准化为几个支持的磷酸化特定任务之一,例如确定蛋白是否被磷酸化、识别激酶-底物关系或检测蛋白-蛋白相互作用,或者当查询无法由底层数据库处理时返回“超出范围”消息。一旦问题被分类,系统会响应来自P3DB的相关、筛选数据,提高对高质量生物学见解的可及性,而不需要结构化查询语言或先前的数据库专业知识。为了让人参与回路,我们设计了一个额外的界面,允许用户在系统未能成功标准化时更正物种或蛋白名称。
在基于图像的通路提取工作流中,用户上传一个通路图,通常源自科学图表。系统使用ChatGPT-4o的多模态能力解析图像,提取基因名称、相互作用类型(激活/抑制)和磷酸化事件。这些提取的关系以表格格式显示,使视觉内容在计算上可访问。除了命令行版本,网络系统支持通过基因ID或基因符号映射进行重定向,然后查询P3DB以交叉引用识别的蛋白和磷酸化事件是否得到实验证据支持。匹配的条目会呈现详细的注释和指向原始P3DB记录的链接。这提供了外部信息与内部P3DB筛选之间的连接。
我们的工作证明了将ChatGPT与特定领域生物信息学资源P3DB集成以支持灵活、用户驱动的查询解读和通路分析的可行性和益处。尽管我们没有重新训练GPT模型,但先前的研究表明,通过利用预训练的ChatGPT模型,基于提示工程和检索增强生成(RAG)的系统可以在各种生物信息学应用中有效执行,例如基因变异解读和基因集注释。
类似于网络路由器,我们的全局入口提示设计提供了一个用户友好且适应性强的接口,它接受开放问题输入并将其转换为任务特定提示,例如磷酸化事件识别、激酶-底物相互作用和蛋白-蛋白相互作用问题。这种标准化步骤弥合了通用用户查询和结构化数据库查询之间的差距,实现了与从公共领域到专业知识库的复杂生物数据的更易访问的交互。
一个关键发现是,完整蛋白名称在用于提示构建时优于其他标识符(例如,TAIR ID、UniProt ID和基因符号)。这可能是由于ChatGPT对描述性文本具有更强的语言建模能力,因为完整名称 likely 包含更丰富的语义线索,与其预训练知识对齐。这一见解可以为用户界面和API的设计提供信息,建议在查询前将缩写标识符映射到完整名称能 consistently 产生更好的性能。
并行地,我们基于图像的应用突显了视觉通路解读作为基于文本的数据库查询的补充的重要性。植物磷酸化研究中的许多关键见解被编码在包含多个信号通路、调控类型和磷酸化标记的图表中。我们的系统,由ChatGPT-4o的多模态能力驱动,成功地从这些图像中提取结构化的生物关系。使用精炼的提示策略(例如,两步和少样本提示)进一步提高了输出的准确性和一致性,特别是在分析视觉复杂的图表时。图像裁剪和少样本提示 emerged 作为解决噪声或密集输入的实用技术,可以进一步探索和自动化。
在系统限制方面,我们观察到性能下降在拥挤或视觉复杂的通路图(如图像12)中最为 observed,其中重叠的标签和重叠的图形元素阻碍了主要基因关系和磷酸化事件(图像13和15)。模糊的符号,例如不清楚的磷酸化标记或不一致的箭头样式,以及激酶-底物关系的错误分类,在低性能案例中也很常见。这些案例突显了提示精炼和预处理策略(如图像分割和图像增强)的重要性,以在未来的工作中提高提取性能。
在本研究中,我们主要关注ChatGPT-4o进行自然语言和基于图像的提示测试,对ChatGPT-5和Gemini-1.5进行了最小程度的测试。在最终系统实现和网络部署中,我们的决策是由实际考虑驱动的,不一定是我们有限的基准测试。到撰写本文时,ChatGPT-4o currently 提供了方便、经济且高效的多模态API,对文本和图像输入有强大支持,使其成为在真实世界生物任务中测试端到端工作流的合适平台。此外,我们工作中探索的方法和提示设计,例如全局入口标准化、两步提示和少样本图像解读,本质上是模型无关的。它们可以 readily 适应未来的其他LLM,通过替换后端API(ChatGPT-5、Gemini-1.5或未来模型),类似于GeneAgent的工作。我们的目标是使用一个稳定且文档齐全的系统耦合GPT和P3DB来建立概念验证,专注于系统开发而不是比较评估和基准测试类型的工作。通过ChatGPT扩展P3DB搜索的用户体验旨在超越严格审查的数据,允许探索性和互补性的见解。因此,系统不受实现极端准确性的需求所累,而是专注于增强可及性、灵活性和知识发现。
总之,这些结果展示了ChatGPT-P3DB耦合如何解决两个主要差距:(1)缺乏由特定领域知识库引导的灵活自然语言和(2)从视觉科学内容中提取结构化知识的困难。这种双能力系统 exemplify 了AI增强知识库在植物生物学及其他领域扩展用户可及性、改进数据集成和简化分析工作流的潜力。随着AI技术的不断发展,将经过筛选的生物信息学数据库与强大的语言模型耦合,为更智能、多模态的生物知识系统提供了一条可扩展的道路。展望未来,本手稿中提出的框架可以扩展以支持其他翻译后修饰(例如,泛素化、乙酰化),通过相应地调整数据库耦合和提示设计。此外,整合空间组学图像或亚细胞定位图可以进一步扩展系统的多模态能力,以从视觉数据中解读生物学相关功能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号