
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能聊天机器人在嗓音障碍类型鉴别诊断中的效能评估:模型构建与验证
【字体: 大 中 小 】 时间:2025年07月20日 来源:Ethics, Medicine and Public Health CS2.2
编辑推荐:
为解决AI聊天机器人在嗓音障碍鉴别诊断中的可靠性问题,研究人员开展ChatGPT与Perplexity AI对器质性、功能性及神经性嗓音障碍的诊断效能研究。结果显示,Perplexity AI与专家诊断的Kappa一致性无统计学意义(实验1 P=0.773;实验2 P=0.067),表明当前AI模型尚不适用于临床。该研究为AI在喉科的应用边界提供重要参考。
嗓音障碍(Dysphonia)的精准诊断一直是喉科临床的挑战。传统依赖喉镜检查(videolaryngostroboscopy)的方法虽准确,但存在成本高、侵入性强等问题,尤其对医疗资源匮乏地区更显棘手。随着ChatGPT等大型语言模型(Large Language Models, LLMs)在医疗领域的探索,一个关键问题浮出水面:这些看似万能的AI助手,能否在嗓音障碍分类中担纲重任?
德黑兰医科大学护理与助产及康复学院(School of Nursing and Midwifery & Rehabilitation, Tehran University of Medical Sciences)的研究团队首次系统评估了两种AI聊天机器人——ChatGPT和Perplexity AI在区分嗓音障碍类型(器质性organic、功能性functional、神经性neurological)中的表现。研究通过两项实验设计:实验1输入结合声学分析(acoustic analysis)和患者自评的复合数据,实验2仅输入声学分析数据,分别用37例训练样本和27例测试样本验证模型效能。
关键技术方法包括:基于喉镜检查与听觉感知评估(auditory-perceptual evaluation)的专家诊断金标准、声学参数量化分析、Cohen's Kappa一致性检验。患者队列来自既往研究,含64例嗓音障碍患者(器质性组25例,功能性组25例,神经性组14例),平均年龄48.44±11.73岁。
结果部分
讨论与结论
尽管AI聊天机器人展现出快速整合多源数据的潜力,但其在嗓音障碍分类中的表现令人失望。研究者指出,当前模型可能缺乏对声学参数临床意义的深度理解,且无法替代喉镜检查的结构性评估价值。值得注意的是,神经性嗓音障碍的误诊率最高,可能与年龄混杂因素或模型对神经病理特征捕捉不足有关。
这项发表于《Ethics, Medicine and Public Health》的研究为AI医疗应用泼了盆冷水,但也指明改进方向:未来需开发专业化的嗓音分析算法,结合多模态数据训练。正如作者所言,AI在喉科的真正价值或许不在于替代医生,而是为资源匮乏地区提供初步筛查工具——毕竟,连最先进的聊天机器人也仍需人类专家"把把关"。
生物通微信公众号
知名企业招聘