
-
生物通官微
陪你抓住生命科技
跳动的脉搏
日本遗传咨询大语言模型(JGCLLM)的评估与优化:领域适应策略比较及专家评估数据集构建
【字体: 大 中 小 】 时间:2025年06月06日 来源:JMIR Medical Informatics 3.1
编辑推荐:
针对日本遗传咨询师短缺问题,研究人员通过指令微调(instruction tuning)、检索增强生成(RAG)和提示工程(prompt engineering)优化轻量级日语大语言模型(LLM),构建首个专家评估的遗传咨询数据集。结果显示RAG显著提升回答质量,为AI辅助遗传咨询系统开发奠定基础。
随着基因检测技术的进步,遗传因素与健康结局的关联日益明确,日本社会对遗传咨询的需求激增。然而截至2023年12月,全日本仅389名认证遗传咨询师,供需缺口显著。遗传咨询涉及家族史、基因数据和未来健康风险等敏感信息,传统在线咨询存在隐私泄露风险,亟需开发能离线运行的轻量级专业辅助系统。
日本奈良先端科学技术大学院大学等机构的研究人员首次系统评估了日语遗传咨询大语言模型(JGCLLM)的优化路径。研究选取性能最优的7B参数模型calm2-7b-chat作为基线,通过构建包含899组问答对的医学数据集(含208组遗传咨询专项数据),比较了指令微调、检索增强生成和提示工程三种优化策略的效果。来自神户市立医疗中心的两名认证遗传咨询师(SK、YU)和一名眼科医生(AY)对120个临床问题的模型回答进行四维评估:信息适当性、信息充分性、危害严重性和医学共识符合度。
关键技术包括:1)基于低秩适应(LoRA)的指令微调,将可训练参数从70亿降至2000万;2)采用GLuCoSE-base-ja向量数据库的RAG系统;3)设计增强型提示模板规范回答格式;4)通过众包平台CrowdWorks收集1000例遗传咨询问题构建评估数据集。
【研究结果】
典型错误模式分析
发现四类伦理风险:过度推荐产前诊断(如"可通过 prenatal testing 评估胎儿风险")、亲属指责(如"父亲酗酒是他自己的错")、责任归因(如"咨询师未充分解释")和概率表述失当(如"过敏遗传概率约50%")
专家评估数据集
建立包含480组专家评分的基准数据集,涵盖六大类临床问题:基础研究、治疗方案、预后判断、生活指导、遗传机制和检测申请。
【结论与意义】
该研究证实RAG是提升JGCLLM性能的最有效手段,其通过整合外部权威知识显著改善回答质量。构建的专家评估数据集为后续强化学习(RLHF)和直接偏好优化(DPO)提供了重要基础。研究同时揭示AI辅助遗传咨询面临的特殊挑战:不同于普通医疗仅涉及个体,遗传信息影响整个家族的生命决策,要求系统具备更高伦理敏感性。成果发表于《JMIR Medical Informatics》,为开发安全可靠的遗传咨询AI系统提供了方法论框架和评估标准。未来需扩展专科化RAG数据库,并建立结合机器筛查与专家复核的半自动评估体系。
生物通微信公众号
知名企业招聘