
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SeedLLM·Rice:融合水稻生物知识图谱的大语言模型助力多组学数据整合与作物系统生物学研究
【字体: 大 中 小 】 时间:2025年05月30日 来源:Molecular Plant 17.1
编辑推荐:
为解决水稻生物学研究中海量文献与多组学数据整合的难题,研究人员开发了基于140万篇水稻文献训练的70亿参数大语言模型SeedLLM·Rice。该模型通过与水稻生物知识图谱(RBKG)整合,在57%-88%的任务中超越GPT-4o和DeepSeek-R1等通用模型,显著提升基因组注释和转录组/蛋白质组数据融合能力,为AI驱动的作物基因组学研究提供突破性工具。
水稻生物学研究正面临知识爆炸的挑战——每年激增的科学文献与多组学(multiomics)数据让研究者难以高效提取关键信息。尽管大语言模型(LLM)在知识检索方面展现出潜力,但缺乏专业模型和跨模态数据整合能力制约了其在水稻研究中的应用。更棘手的是,该领域尚未建立标准化的模型评估体系。
为此诞生的SeedLLM·Rice带来双重突破:这个70亿参数模型基于覆盖全球98.24%水稻研究的140万篇文献训练,并创新性地整合了水稻生物知识图谱(RBKG)。该图谱不仅包含日本晴(Nipponbare)基因组注释,还融合了来自1800余项研究的转录组(transcriptomic)和蛋白质组(proteomic)数据。测试显示,其在水稻专业任务中对战GPT-4o1和DeepSeek-R1的胜率达57%-88%。
通过https://seedllm.org.cn/开放访问的这套系统,首次实现了文本知识与多组学数据的智能耦合。这种"文献挖掘+数据融合"的双引擎设计,使模型能回答诸如"干旱胁迫下哪些基因同时出现表达量变化和蛋白质修饰"等复杂问题,为作物改良和气候适应研究开辟了新范式。
生物通微信公众号
知名企业招聘