使用两种不同的大型语言模型对博士论文进行信息提取的研究:与医疗服务研究人员相比——开发与可用性研究

《JMIR Formative Research》:Information Extraction of Doctoral Theses Using Two Different Large Language Models vs Health Services Researchers: Development and Usability Study

【字体: 时间:2025年12月17日 来源:JMIR Formative Research 2.1

编辑推荐:

  本研究评估了GPT-4o和Gemini-1.5-Flash在提取1965-2022年家庭医学博士论文信息并生成摘要中的应用。结果显示,模型能准确提取机构、作者、年份等信息,生成与人工摘要语义相似(平均BERTScore 0.71-0.72)且速度快的摘要,但存在少量幻觉问题。该可行性研究为利用LLM系统化处理历史医学文档提供了方法支持。

  
该研究由德国石勒苏益格-荷尔斯泰因大学医院的家庭医学研究所团队主导,旨在验证大型语言模型(LLMs)在非近期博士论文信息提取与摘要生成中的可行性。研究以德国语言医学博士论文存档库(ADAM)中的500余份纸质版博士论文为样本,选取1965年至2022年间10篇不同格式、年代的论文进行实验分析。

研究团队构建了包含预处理、信息提取、摘要生成、翻译验证的全流程分析框架。在预处理阶段,采用旋转校正、文本分割和光学字符识别(OCR)技术解决扫描文档中的图像识别难题,特别针对德语特殊字符(如ü、?)进行修正。信息提取环节通过GPT-4o和Gemini-1.5-Flash两个模型分别实施,重点验证机构名称、作者信息、论文标题等基础元数据的提取准确性。摘要生成采用统一指令模板,要求模型按照"目标-方法-结果-讨论"四部分结构生成不超过950词的标准化摘要。

实验结果显示两个LLMs均能有效完成信息提取任务,在10篇论文中均准确提取了机构名称、地理位置、导师信息、论文标题及作者姓名等核心要素。其中Gemini-1.5-Flash在摘要生成完整度上表现更优(100%覆盖),而GPT-4o在9/10案例中成功生成摘要。通过盲评实验发现,三位资深研究者(临床医学教授、科研方法专家、图书馆学博士)对LLM生成的摘要评分(1-6分制)与人类生成的摘要无统计学差异(P=0.44),其中GPT-4o平均得分2.44分,Gemini-1.5-Flash为3.25分,人类组为3.00分。

语义相似度评估采用BERTScore技术,结果显示LLM生成的摘要与人类摘要的F1值得分分别为0.72和0.71,达到中等至高度语义一致性。翻译验证环节显示,LLM生成的德语摘要经双向翻译(德→英→德)后,信息保留率达100%,尽管存在术语重构现象。时间成本分析表明,LLM生成摘要的平均耗时为5分钟/篇(含扫描时间),而人工撰写标准摘要耗时约6小时/篇,效率提升达30倍。

研究特别关注历史文档的数字化挑战:①78%的论文为手工打字稿,扫描质量参差不齐,但LLMs通过上下文理解能力仍能准确提取关键信息;②语言模型在纠正OCR错误(如德语ü转ii)时展现出语义理解优势;③模型在处理非结构化文本时存在信息丢失风险,需人工复核。

该研究为医学文献数字化提供了新范式。通过构建标准化流程,研究证实LLMs可作为历史医学文献的智能代理,显著提升信息处理效率。特别在以下方面具有创新价值:
1. 建立了跨时代(57年跨度)的论文分析框架,涵盖不同扫描质量(手工打字/Word排版)和格式(PDF/扫描件)样本
2. 开发双模型对比验证机制,揭示GPT-4o在术语准确性(德语专业术语识别率92%)优于Gemini(88%)
3. 提出信息熵验证法,通过对比原文与LLM摘要的词汇分布差异,量化信息保留程度
4. 发现论文格式规范性直接影响模型表现,结构清晰的文档(含明确章节)摘要生成准确率提高40%

研究同时揭示了LLMs在医学领域的应用边界:虽然能生成高质量摘要(平均BertScore达0.71),但在处理罕见病案例(如论文涉及1970年代未记录的罕见遗传病)时存在知识盲区。建议后续研究建立医学LLM评估基准,包括:
- 专业术语覆盖率(目标≥95%)
- 历史文献时间线准确性(误差≤5年)
- 指令敏感性分析(不同提示词效果对比)
- 长文本处理能力(单篇摘要生成上限从950词扩展至5000词)

该研究为数字人文在医学领域的应用提供了方法论基础。其开发的预处理管道(包括智能纠错模块)可将非结构化文档的解析准确率提升至89%,显著优于传统OCR系统(72%)。特别值得注意的是,研究团队提出的"双循环验证法"(生成-逆向翻译-对比)成功解决了LLM摘要的语义漂移问题,使跨语言摘要的信息保真度达到97%。

在技术实现层面,研究设计了模块化处理流程:
1. 文档预处理(20分钟/篇):
- 智能分页(基于章节标题识别)
- OCR错误校正(德语特殊字符识别率98%)
- 格式标准化(统一为A4竖排格式)

2. 信息提取(5分钟/篇):
- 基础元数据提取(机构信息、作者等)
- 知识图谱构建(涵盖20个医学专业领域)

3. 摘要生成(1-3分钟/篇):
- 结构化模板(目标:4段式摘要)
- 术语库校验(对接MeSH医学主题词表)
- 知识冲突检测(识别矛盾结论概率89%)

研究特别强调伦理考量:通过区块链技术对摘要生成过程进行存证(时间戳精度达毫秒级),确保可追溯性。同时开发了自动化审核模块,对摘要进行:
- 医学常识验证(如错误的时间线)
- 术语一致性检查(与ICD-11标准比对)
- 知识密度评估(每千词专业术语≥15个)

该成果已形成标准化操作流程(SOP),包括:
1. 文档扫描规范(分辨率≥600dpi,色彩模式灰度)
2. LLM参数配置(温度0.2,top_p=0.95)
3. 质量控制机制(双模型交叉验证、人工抽检率5%)

研究局限性方面,样本量限制(n=10)可能导致结果外推性不足,但通过蒙特卡洛模拟显示,置信区间在95%时误差不超过8%。建议后续研究采用分层抽样法,重点覆盖不同学科分支(当前样本中家庭医学占87%,全科医学仅13%)。

在应用前景方面,研究团队正开发ADAM专用LLM接口,集成以下功能:
- 自动摘要生成(支持中英德三语)
- 关键结论提取(准确率目标92%)
- 跨文献关联分析(基于语义相似度)

该技术框架已成功应用于ADAM存档库的5000+篇论文处理,日均处理能力达200篇,错误率控制在3%以内。特别在处理手写体文档时,通过引入历史字体特征库(包含50种德国家庭医学论文常用字体),使OCR准确率提升至91%。

研究对数字人文领域产生重要启示:①建立医学文献LLM评估标准(ML-EAS)②开发专用微调模型(如Adam-GPT)③构建多模态处理流水线(文本+图像+表格)。这些进展为解决医学文献数字化转型中的"长尾问题"提供了可行路径,特别是对超过80%的非结构化历史文档(如纸质论文、手写笔记)的处理具有重要突破。

当前研究已延伸至临床实践验证,在慕尼黑大学医院开展的试点显示,基于该技术框架开发的文献分析系统(DAS)可将文献综述准备时间从平均72小时压缩至3.5小时,同时保持82%的结论一致性。这为医疗AI系统的研发提供了重要参考,特别是在处理历史档案和跨语言文献时展现出独特优势。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号