基于大语言模型的可扩展科研兴趣画像生成：方法与评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Bodywork and Movement Therapies》：Scalable scientific interest profiling using large language models

【字体：大中小】 时间：2025年11月02日 来源：Journal of Bodywork and Movement Therapies 1.4

编辑推荐：

　　本文探讨利用大语言模型（LLM）自动生成科研人员兴趣档案的创新方法，通过对比基于PubMed摘要和MeSH术语的两种生成策略，发现机器生成档案虽与人工撰写存在词汇差异，但具备良好可读性，为大规模学术画像提供新思路。

¹研究亮点

本研究首次系统比较基于大语言模型（LLM）的两种科研兴趣画像生成方法：一种通过总结PubMed摘要，另一种利用医学主题词表（MeSH）生成概要。通过与研究人员自述兴趣的对比分析，揭示机器生成内容在术语选择和创新性方面的特征。

²方法

我们构建了包含三个组件的自动化管道（图1）：（1）从网络获取人工撰写的科研摘要并收集研究人员PubMed出版物；（2）基于GPT-4o-mini模型开发两种档案生成方法；（3）通过人工评估和自动化指标（如ROUGE-L、BERTScore和TF-IDF的KL散度）进行系统性评估。

³结果

对167名研究人员的数据分析显示，机器生成与人工撰写的档案在词汇重叠度指标（ROUGE-L/BLEU/METEOR）得分较低，但BERTScore显示中等语义相似度（F1分数：基于MeSH为0.542，基于摘要为0.555）。KL散度分析（MeSH档案为8.56，摘要档案为8.58）表明机器生成摘要倾向于使用不同的关键词。人工评估中77.78%的MeSH档案获得"良好"以上评价，93.44%的案例可读性获赞，但精细度和事实准确性存在差异。

⁴结论

大语言模型可实现大规模科研兴趣画像自动化生成。基于MeSH术语的档案比基于摘要的档案具有更好可读性。机器生成摘要与人工撰写在概念选择上存在差异，后者能提出更多新颖思路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号