人工智能聊天机器人能否有效回答肺动脉高压患者关于运动和体力活动的咨询：对三种聊天机器人的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Respiratory Medicine》：Can AI chatbots effectively respond inquiries for patients with Pulmonary Arterial Hypertension about exercise and physical activity: A comparative study of three chatbots

【字体：大中小】 时间：2026年06月09日 来源：Respiratory Medicine 3.1

编辑推荐：

　　哈比贝·杜尔杜（Habibe DURDU）、皮纳尔·梅尔奇（P?nar MER?）、贝图尔·奇纳尔（Betul CINAR）、泽基·尤克塞尔·古纳伊丁（Zeki Yuksel GUNAYDIN）土耳其吉雷松大学（Giresun University），治疗与康复系（Departm

哈比贝·杜尔杜（Habibe DURDU）、皮纳尔·梅尔奇（P?nar MER?）、贝图尔·奇纳尔（Betul CINAR）、泽基·尤克塞尔·古纳伊丁（Zeki Yuksel GUNAYDIN）

土耳其吉雷松大学（Giresun University），治疗与康复系（Department of Therapy and Rehabilitation），健康服务职业学院（Vocational School of Health Services），吉雷松（Giresun）

摘要

目的

在医疗领域，基于人工智能的聊天机器人的应用日益普遍。然而，这些聊天机器人在相关问题上的回答质量尚不明确，尤其是在关于肺动脉高压（PAH）患者运动和体力活动的数据较为匮乏的情况下。本研究旨在评估和比较ChatGPT、Gemini和DeepSeek在回答PAH患者运动训练和体力活动相关问题时的准确性和可读性。

方法

研究人员向ChatGPT、Gemini和DeepSeek发送了指令：“你能列出全球PAH患者最常询问的20个关于运动训练和体力活动的问题吗？”研究团队对这些问题进行了审查，并选出了10个具有临床意义的问题。随后，分别向每个聊天机器人提出了这些问题。通过4点李克特量表（Likert-type scale）来评估回答的准确性；可读性评估则使用了Flesch-Kincaid等级量表（FKGL）。数据分析采用SPSS软件完成。

结果

总体而言，这三个AI聊天机器人的准确率中位数在1到2之间，其中ChatGPT和DeepSeek之间存在显著差异，DeepSeek的表现更优（p = 0.007）。ChatGPT（9.09±1.87）和DeepSeek（8.79±1.35）的可读性得分相近，而Gemini的得分（10.91±1.23）高于其他两个聊天机器人（p=0.011）。

结论

这三个聊天机器人对PAH患者关于运动训练和体力活动的问题都给出了可接受的回答。此外，ChatGPT和DeepSeek生成的回答比Gemini生成的回答更易于阅读。

章节摘录

引言

肺动脉高压（PAH）是一种肺部血管疾病，会导致血流动力学、右心功能、运动能力、生活质量及生存率的严重恶化¹。根据右心导管检查数据，PAH的定义是平均肺动脉压>20毫米汞柱（mmHg），肺动脉楔压<15毫米汞柱，肺血管阻力≥2伍德单位（wood units）²。

运动训练是治疗PAH最经济有效且安全的方法之一

研究设计

这项横断面研究分析了由AI支持的聊天机器人生成的回答，未涉及任何人类或动物样本，因此无需伦理委员会批准或知情同意。

研究过程

2025年9月1日，研究人员向Gemini（2.5版本）、ChatGPT（5.0版本）和DeepSeek（V3版本）这三个AI聊天机器人提出了“你能列出全球PAH患者最常询问的20个关于运动训练和体力活动的问题吗？”这个问题。

结果

在AI聊天机器人生成的与PAH患者运动训练相关的60个问题中，选取了10个相似或完全相同的问题，并在表1中展示。

根据准确性评估，Gemini、ChatGPT和DeepSeek的回答中位数得分在1到2之间，但Gemini在第5个问题上的表现较差。AI聊天机器人之间的准确率存在显著差异（χ² = 6.31，p = 0.043）。使用Wilcoxon检验进行了事后成对比较

讨论

研究表明，由AI辅助的大型语言模型（LLMs）生成的回答总体上是可接受的。在准确性方面，DeepSeek的表现优于ChatGPT；ChatGPT和Gemini的表现相当，Gemini和DeepSeek之间也表现相近。所有LLM的回答均未使用学术语言；不过，Gemini生成的回答比其他聊天机器人的回答更为复杂。此外，安全性是本研究的主要关注点

AI在写作辅助中的应用

在本文的撰写过程中，未使用任何支持人工智能的技术。

CRediT作者贡献声明

哈比贝·杜尔杜（Habibe DURDU）：撰写——审稿与编辑、初稿撰写、项目管理、方法论设计、数据整理、概念构建。皮纳尔·梅尔奇（Pinar MER?）：撰写——审稿与编辑、初稿撰写、数据整理、概念构建。贝图尔·奇纳尔（Betul CINAR）：撰写——审稿与编辑、初稿撰写、正式分析、数据整理。泽基·古纳伊丁（Zeki Gunaydin）：撰写——审稿与编辑、初稿撰写、指导、数据整理

13..

作者们没有任何需要声明的利益冲突。

数据获取声明

资金来源

利益冲突声明

作者声明他们没有已知的可能影响本文研究的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

目的

方法

结果

结论