基于大语言模型的可扩展科研兴趣画像生成:方法与评估
《Journal of Bodywork and Movement Therapies》:Scalable scientific interest profiling using large language models
【字体:
大
中
小
】
时间:2025年11月02日
来源:Journal of Bodywork and Movement Therapies 1.4
编辑推荐:
本文探讨利用大语言模型(LLM)自动生成科研人员兴趣档案的创新方法,通过对比基于PubMed摘要和MeSH术语的两种生成策略,发现机器生成档案虽与人工撰写存在词汇差异,但具备良好可读性,为大规模学术画像提供新思路。
本研究首次系统比较基于大语言模型(LLM)的两种科研兴趣画像生成方法:一种通过总结PubMed摘要,另一种利用医学主题词表(MeSH)生成概要。通过与研究人员自述兴趣的对比分析,揭示机器生成内容在术语选择和创新性方面的特征。
我们构建了包含三个组件的自动化管道(图1):(1)从网络获取人工撰写的科研摘要并收集研究人员PubMed出版物;(2)基于GPT-4o-mini模型开发两种档案生成方法;(3)通过人工评估和自动化指标(如ROUGE-L、BERTScore和TF-IDF的KL散度)进行系统性评估。
对167名研究人员的数据分析显示,机器生成与人工撰写的档案在词汇重叠度指标(ROUGE-L/BLEU/METEOR)得分较低,但BERTScore显示中等语义相似度(F1分数:基于MeSH为0.542,基于摘要为0.555)。KL散度分析(MeSH档案为8.56,摘要档案为8.58)表明机器生成摘要倾向于使用不同的关键词。人工评估中77.78%的MeSH档案获得"良好"以上评价,93.44%的案例可读性获赞,但精细度和事实准确性存在差异。
大语言模型可实现大规模科研兴趣画像自动化生成。基于MeSH术语的档案比基于摘要的档案具有更好可读性。机器生成摘要与人工撰写在概念选择上存在差异,后者能提出更多新颖思路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号