
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于波斯语生物医学文本挖掘的预训练生物医学大型语言模型
《Scientific Reports》:A pretrained biomedical large language model for Persian biomedical text mining
【字体: 大 中 小 】 时间:2026年06月14日 来源:Scientific Reports 3.9
编辑推荐:
摘要大型语言模型由于具备处理、提取和应用复杂生物信息的能力,近来在生命科学领域受到了广泛关注。除了被用作聊天机器人外,这些系统还被越来越多地用于生物信息学等专业领域的复杂分析及问题解决。首先,我们介绍了BIOPARS-BENCH,这是一个包含超过10,000篇科学文章、教科书和医
大型语言模型由于具备处理、提取和应用复杂生物信息的能力,近来在生命科学领域受到了广泛关注。除了被用作聊天机器人外,这些系统还被越来越多地用于生物信息学等专业领域的复杂分析及问题解决。首先,我们介绍了BIOPARS-BENCH,这是一个包含超过10,000篇科学文章、教科书和医学网站内容的数据库。同时,我们还引入了BioParsQA来评估所提出的模型,该数据集包含5231道波斯语医学问答题。本研究还提出了BioPars这一简单而准确的评估指标,用于衡量大型语言模型在三大能力方面的表现:获取特定领域知识、解读并整合这些知识,以及提供恰当的证据。通过对比ChatGPT、Llama和Galactica,我们的研究显示了这些模型在记忆和检索所学知识方面的优势,但也暴露了它们在处理更复杂的现实世界问题及进行细致推理时的不足。这些发现表明,需要进一步优化大型语言模型,以提高其在生物信息学任务中的性能。据我们所知,BioPars是首个将大型语言模型应用于波斯语医学问答系统的工具,尤其擅长生成长篇答案。通过对四个选定医学问答数据集的评估,结果显示BioPars的表现显著优于其他对比模型。在BioParsQA数据集上,该模型的ROUGE-L得分达到了29.99,这一成绩优于GPT-4 1.0版本;使用MMR方法评估时,其BERTScore为90.87,其MoverScore和BLEURT值也高于另外三种模型。此外,该模型的MoverScore为60.43,BLEURT值为50.78。