
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能赋能研究文献与可持续发展目标的精准映射:基于相似性度量与GPT模型的对比研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Array 2.7
编辑推荐:
推荐:本研究针对海量学术文献与联合国可持续发展目标(SDGs)人工映射效率低下的问题,创新性地采用AI相似性度量与GPT-3.5/GPT-4模型对比分析,构建了自动化分类框架。通过82,649篇文献验证,发现相似性测量方法分类成功率分别达82.89%(GPT-3.5)和89.34%(GPT-4),为敏感数据机构提供了透明可靠的低成本解决方案。
随着全球对可持续发展议题的关注度持续升温,研究文献数量呈现指数级增长。然而,将这些学术成果精准对应到17个联合国可持续发展目标(SDGs)却面临巨大挑战:传统人工分类需要跨学科专业知识且耗时费力,而基于关键词检索的方法又存在主观性强、更新滞后等缺陷。这种低效的映射方式严重制约了科研机构评估自身研究贡献、制定战略决策的能力。
为解决这一难题,澳大利亚斯威本科技大学的研究团队开展了一项开创性研究。他们创新性地将人工智能技术引入SDG分类领域,首次系统比较了基于Sentence-BERT的相似性度量与GPT-3.5 Turbo/GPT-4两种大语言模型的性能差异。通过对该校1967-2023年间82,649篇学术文献的大规模分析,研究人员发现自主开发的相似性测量方法在保持高准确率的同时,显著降低了计算成本和数据隐私风险。这项发表于《Array》的研究为学术机构追踪研究影响力提供了新范式。
研究团队采用了三项核心技术:首先运用Sentence-BERT模型将文献摘要和SDG描述转化为768维向量;其次通过余弦相似度计算文献与17个SDG的关联强度;最后设计特定提示词模板,调用OpenAI API获取GPT模型的分类结果作为基准。为验证可靠性,还邀请领域专家对随机样本进行人工评估。
在"AI-based similarity measures"部分,研究揭示了SDG向量在t-SNE降维后的空间分布规律,发现目标2(零饥饿)、14(水下生物)和15(陆地生物)具有天然语义邻近性。通过设置0.4的相似度阈值,从82,649篇文献中筛选出7,403篇(8.96%)相关文献,其中目标11(可持续城市)相关研究占比最高。
"GPT model for mapping task"章节详细对比了两种GPT模型的性能差异。通过设计特定提示模板,GPT-3.5 Turbo和GPT-4分别成功分类6,473和6,925篇文献。值得注意的是,GPT-4在目标17(全球伙伴关系)的识别上展现出更强语义理解能力,这得益于其更复杂的架构设计。
"Hybrid approach"部分提出的融合策略极具创新性:将相似性度量与GPT模型结果取交集,使分类准确率提升至89.34%。可视化分析显示,该校研究最集中的领域是目标11(可持续城市)和目标4(优质教育),而目标14(水下生物)的研究相对薄弱。这种差异映射为科研战略调整提供了数据支撑。
研究结论指出,相似性测量方法在保持与GPT-4相当准确率(89.34%)的前提下,具有成本低廉、数据隐私保护等优势,特别适合预算有限或处理敏感数据的机构。讨论部分强调,该框架可扩展应用于政府报告、企业白皮书等非学术文本分析,未来通过集成可解释AI技术可进一步增强模型透明度。这项研究不仅推动了SDG监测方法的革新,也为AI驱动的科研评估体系建立了新标准。
生物通微信公众号
知名企业招聘