
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能模型在治疗性单采术培训中的性能比较:理论知识与实践应用的突破性评估
【字体: 大 中 小 】 时间:2025年06月21日 来源:Transfusion and Apheresis Science 1.4
编辑推荐:
本研究针对AI模型在治疗性单采术(Therapeutic Apheresis)认证考试中的表现展开系统评估,通过ChatGPT-4o、o1-preview和Claude 3.5 Sonnet对75道多选题的两次应答测试,结合Cohen's kappa系数和相关性分析,发现o1-preview以67%正确率领先,且模型间一致性良好(κ=0.700–0.765),为AI整合至医学教育提供了实证依据。
在医学教育快速数字化的今天,人工智能(AI)能否真正理解复杂的临床知识体系?这一问题在治疗性单采术(Therapeutic Apheresis)——一项涉及血液病、神经代谢疾病治疗的多学科技术中尤为关键。尽管AI模型如GPT-4已在USMLE(美国医师执照考试)中表现优异(准确率达86-90%),但其在专业细分领域如单采术的理论掌握度、答案一致性仍属未知。土耳其卫生部认证的"治疗性单采中心规范培训项目"恰好提供了标准化评估场景,研究人员由此切入,首次对三大主流模型(ChatGPT-4o、o1-preview和Claude 3.5 Sonnet)展开头对头比较。
研究团队采用75道五选项多选题库,通过"两次应答+争议题第三次验证"策略生成485条记录。技术方法上,除常规正确率统计外,创新性引入Cohen's kappa评估模型自我一致性,并通过Pearson相关性分析模型答案与标准答案的匹配模式,所有数据经卡方检验验证显著性。
结果部分显示:
讨论与意义
该研究揭示了AI模型在专业医学领域的"双面性":一方面,o1-preview在血液成分分离原理等理论问题上表现突出,反映LLMs(大型语言模型)对结构化知识的强大编码能力;另一方面,所有模型在涉及临床操作流程(如抗凝剂剂量计算)时错误率骤增,印证了Yaneva等学者关于AI"视觉-实践短板"的论断。值得注意的是,相比早期GPT-3.5在USMLE中60%的准确率,本次测试中先进模型的提升印证了技术迭代价值。
这项发表于《Transfusion and Apheresis Science》的研究,为医学教育AI化提供了三点启示:首先,证实AI可作为理论培训的辅助工具,尤其在资源有限的地区;其次,强调多模态训练(如图像识别)对提升临床场景应对能力的必要性;最后,提出"动态题库更新"机制以应对AI的"应试倾向"。正如作者指出,未来需扩大至肾内科、免疫学等交叉学科题库,方能全面评估AI的医疗决策支持潜力。
生物通微信公众号
知名企业招聘