基于大语言模型的可扩展科研兴趣画像生成:方法与评估

《Journal of Bodywork and Movement Therapies》:Scalable scientific interest profiling using large language models

【字体: 时间:2025年11月02日 来源:Journal of Bodywork and Movement Therapies 1.4

编辑推荐:

  本文探讨利用大语言模型(LLM)自动生成科研人员兴趣档案的创新方法,通过对比基于PubMed摘要和MeSH术语的两种生成策略,发现机器生成档案虽与人工撰写存在词汇差异,但具备良好可读性,为大规模学术画像提供新思路。

  
1研究亮点
本研究首次系统比较基于大语言模型(LLM)的两种科研兴趣画像生成方法:一种通过总结PubMed摘要,另一种利用医学主题词表(MeSH)生成概要。通过与研究人员自述兴趣的对比分析,揭示机器生成内容在术语选择和创新性方面的特征。
2方法
我们构建了包含三个组件的自动化管道(图1):(1)从网络获取人工撰写的科研摘要并收集研究人员PubMed出版物;(2)基于GPT-4o-mini模型开发两种档案生成方法;(3)通过人工评估和自动化指标(如ROUGE-L、BERTScore和TF-IDF的KL散度)进行系统性评估。
3结果
对167名研究人员的数据分析显示,机器生成与人工撰写的档案在词汇重叠度指标(ROUGE-L/BLEU/METEOR)得分较低,但BERTScore显示中等语义相似度(F1分数:基于MeSH为0.542,基于摘要为0.555)。KL散度分析(MeSH档案为8.56,摘要档案为8.58)表明机器生成摘要倾向于使用不同的关键词。人工评估中77.78%的MeSH档案获得"良好"以上评价,93.44%的案例可读性获赞,但精细度和事实准确性存在差异。
4结论
大语言模型可实现大规模科研兴趣画像自动化生成。基于MeSH术语的档案比基于摘要的档案具有更好可读性。机器生成摘要与人工撰写在概念选择上存在差异,后者能提出更多新颖思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号