
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于检索增强生成技术的日本核医学机构手册问答系统开发与评估
【字体: 大 中 小 】 时间:2025年07月21日 来源:Radiological Physics and Technology 1.7
编辑推荐:
本研究针对核医学领域协议更新频繁、机构差异大的特点,开发了基于检索增强生成(RAG)技术的问答系统。研究人员利用日本滋贺医科大学医院40份核医学检查手册构建知识库,采用混合检索策略(稠密向量text-embedding-3-small+稀疏关键词BM25)结合GPT-3.5/GPT-4o模型,通过放射技师和医学物理学家的人工评估及RAGAS自动化指标验证,证实GPT-4o+混合检索方案表现最优(专家评分84/100),为医疗机构特定知识的动态更新提供了可行方案。
核医学领域正面临着一个独特的挑战:随着新型放射性药物(radiopharmaceuticals)的引入和诊疗一体化(theranostics)的普及,检查协议和操作流程日益多样化。然而,这些机构特定的操作规范往往不会包含在通用大型语言模型(LLMs)的训练数据中,导致模型在面对"肾静态显像中摄取率图像如何生成"这类专业问题时,要么给出笼统过时的回答,要么产生事实性错误。更棘手的是,不同医疗机构的核医学检查流程存在显著差异,而频繁更新的协议使得传统微调(fine-tuning)方法在技术和操作上都难以实施。
针对这一难题,日本滋贺医科大学医院的研究人员开展了一项创新研究。他们开发了基于检索增强生成(Retrieval-Augmented Generation, RAG)技术的问答系统,该系统以医院内部使用的40份核医学检查手册作为知识库,每份手册对应不同的核医学检查项目。这些机构特定文档经过分块处理后,采用混合检索策略——结合稠密向量搜索(text-embedding-3-small)和稀疏关键词搜索(BM25)——进行索引。问答生成模块则通过OpenAI API调用GPT-3.5和GPT-4o模型。为评估系统性能,研究设计了由认证放射技师(其中一位持有核医学专业认证,另一位持有医学物理认证)进行的人工评估,采用4分制Likert量表;同时使用RAGAS指标进行自动化评估,重点关注事实正确性(factual correctness)和上下文召回率(context recall)。
研究主要采用了三项关键技术方法:1)文档预处理采用Langchain框架的RecursiveCharacterTextSplitter,设置2000个token的块大小和1000个token的重叠;2)混合检索系统结合BM25算法和text-embedding-3-small向量搜索,通过互惠排序融合(Reciprocal Rank Fusion, RRF)整合结果;3)评估体系包含人工评分和RAGAS自动化指标,同时对比了ROUGE分数、Levenshtein距离等传统指标。

系统性能评估结果显示,GPT-4o与混合检索的组合获得最高评分(84/100),显著优于其他配置。值得注意的是,虽然检索到的文档块平均人工评分仅为50/100(表明近半数包含无关信息),但LLM仍能从噪声数据中提取有效信息,对约80%的问题生成理想(4分)或适当但冗长(3分)的回答。在失败案例分析中,研究者发现信息缺失、检索不完整以及处理非结构化数据(如图表)是主要误差来源。当检索失败时,GPT-3.5倾向于产生幻觉(hallucination),而GPT-4o则更常声明无法回答。
在问题分类方面,研究将100个测试问题分为三类:标准程序(S)、关键词事实回忆(K)和分析推理(A)。统计分析显示,不同类别问题的回答质量无显著差异,表明系统对各种类型核医学问题都具有稳定表现。然而评估者间存在评分差异(Fleiss' kappa≈0.4),特别是参与问题设计的评估者与其他专家之间存在系统性偏差,这提示医学领域评估需要更明确的评分标准和更多样化的评估团队。
与传统指标相比,RAGAS自动化评估虽然与人工评分的相关性有限(GPT-3.5评分相关性较高,GPT-4o-mini较低),但能保持系统配置间的相对排序一致性。而ROUGE和Levenshtein距离等传统指标则显示出与人工评价相反的趋势,突显了基于语义理解的LLM评估方法在专业领域的优势。
这项研究的结论部分强调了三个关键发现:首先,整合机构特定手册的RAG框架能有效支持核医学领域的专业问答,GPT-4o+混合检索是最佳配置;其次,LLM生成的回答质量不仅取决于检索结果,更与基础模型的能力密切相关;最后,RAGAS等自动化评估工具可作为专家评审的补充,加速医疗AI系统的开发迭代。研究者同时指出,当前系统仍存在15-20%的错误率,需要设计源文档显示、低置信度查询收集等多重安全机制,才能考虑临床实际应用。这些发现为医疗领域知识更新难题提供了切实可行的解决方案,也为专业机构部署领域特定的AI辅助系统提供了重要参考。
生物通微信公众号
知名企业招聘