人工智能聊天机器人在嗓音障碍类型鉴别诊断中的效能评估:模型构建与验证

【字体: 时间:2025年07月20日 来源:Ethics, Medicine and Public Health CS2.2

编辑推荐:

  为解决AI聊天机器人在嗓音障碍鉴别诊断中的可靠性问题,研究人员开展ChatGPT与Perplexity AI对器质性、功能性及神经性嗓音障碍的诊断效能研究。结果显示,Perplexity AI与专家诊断的Kappa一致性无统计学意义(实验1 P=0.773;实验2 P=0.067),表明当前AI模型尚不适用于临床。该研究为AI在喉科的应用边界提供重要参考。

  

嗓音障碍(Dysphonia)的精准诊断一直是喉科临床的挑战。传统依赖喉镜检查(videolaryngostroboscopy)的方法虽准确,但存在成本高、侵入性强等问题,尤其对医疗资源匮乏地区更显棘手。随着ChatGPT等大型语言模型(Large Language Models, LLMs)在医疗领域的探索,一个关键问题浮出水面:这些看似万能的AI助手,能否在嗓音障碍分类中担纲重任?

德黑兰医科大学护理与助产及康复学院(School of Nursing and Midwifery & Rehabilitation, Tehran University of Medical Sciences)的研究团队首次系统评估了两种AI聊天机器人——ChatGPT和Perplexity AI在区分嗓音障碍类型(器质性organic、功能性functional、神经性neurological)中的表现。研究通过两项实验设计:实验1输入结合声学分析(acoustic analysis)和患者自评的复合数据,实验2仅输入声学分析数据,分别用37例训练样本和27例测试样本验证模型效能。

关键技术方法包括:基于喉镜检查与听觉感知评估(auditory-perceptual evaluation)的专家诊断金标准、声学参数量化分析、Cohen's Kappa一致性检验。患者队列来自既往研究,含64例嗓音障碍患者(器质性组25例,功能性组25例,神经性组14例),平均年龄48.44±11.73岁。

结果部分

  • 诊断一致性:Perplexity AI在实验1与专家诊断的Kappa值为0.773(P=0.773),实验2为0.067(P=0.067),均未达统计学显著性;ChatGPT则完全无法执行数据分析。
  • 人群特征:神经性组年龄显著高于其他两组(56.07±12.91岁,P<0.05),性别分布差异显著(器质性组男性占比84%)。

讨论与结论
尽管AI聊天机器人展现出快速整合多源数据的潜力,但其在嗓音障碍分类中的表现令人失望。研究者指出,当前模型可能缺乏对声学参数临床意义的深度理解,且无法替代喉镜检查的结构性评估价值。值得注意的是,神经性嗓音障碍的误诊率最高,可能与年龄混杂因素或模型对神经病理特征捕捉不足有关。

这项发表于《Ethics, Medicine and Public Health》的研究为AI医疗应用泼了盆冷水,但也指明改进方向:未来需开发专业化的嗓音分析算法,结合多模态数据训练。正如作者所言,AI在喉科的真正价值或许不在于替代医生,而是为资源匮乏地区提供初步筛查工具——毕竟,连最先进的聊天机器人也仍需人类专家"把把关"。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号