ChatGPT-4o在回答眼科患者问题时的准确性和可读性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ophthalmology Science》：Accuracy and Readability of ChatGPT-4o in Answering Ophthalmology Patient Questions

【字体：大中小】 时间：2025年11月17日 来源：Ophthalmology Science 4.6

编辑推荐：

　　ChatGPT-4o对眼科患者咨询的响应质量及可读性研究显示，77%的原始回答经眼科专家评分后为“准确且完整”，但需12年级阅读水平；调整至6年级水平后，回答质量未显著下降，角膜专科准确率提升（p=0.001）。研究还发现LLM在复杂问题（如角膜术后用药）中存在知识盲区，且不同专科间可读性评分差异显著。

　　这项研究评估了ChatGPT-4o在回答患者通过Epic MyChart平台提交的与眼科相关的临床问题时的表现。研究团队由来自美国西北大学费因伯格医学院眼科部门的科学家组成，他们回顾性地分析了165名患者提出的问题，并对ChatGPT-4o的回答进行了质量评估。研究的主要目的是检验该语言模型在处理患者对眼科亚专科（青光眼、视网膜、角膜）的提问时，是否能够提供准确且全面的信息。同时，研究还关注了回答的可读性，因为患者对复杂医学术语的理解能力可能影响他们获取信息的效果。

在研究过程中，所有患者的问题均来自Epic MyChart平台，该平台是电子病历系统的一部分，广泛用于医疗信息的交流。研究人员首先将问题直接提交给ChatGPT-4o，然后在模型被设定为以六年级阅读水平进行回答后，再次提交相同的问题。两种情况下，模型的回答都由两位独立的眼科医生进行评估，他们根据回答的准确性、完整性以及是否适合直接传达给患者来给出评分。如果两位医生在评分上出现分歧，将由第三位具有相关专业背景的专家进行仲裁。为了评估回答的可读性，研究人员使用了多种指标，包括Flesch-Kincaid年级水平、Flesch阅读易读性评分、Gunning Fog指数、Coleman-Liau指数以及简单可读性指数（SMOG）。这些指标帮助研究人员了解模型生成的内容是否适合不同教育背景的患者阅读。

研究结果显示，ChatGPT-4o在回答患者问题时表现良好，总体上77%的回答被评定为“准确且完整”，17%为“不完整”，6%为“不可接受”。然而，当模型被设定为以六年级阅读水平进行回答后，准确且完整的回答比例提高至85%，不完整的比例下降至13%，不可接受的比例降至2%。这一结果表明，通过调整模型的回答方式，可以显著提升其回答的可读性，而不会牺牲信息的准确性。此外，模型的原始回答在教育背景较高的患者群体中更容易被理解，但在教育水平较低的患者中可能存在理解困难。

在具体亚专科的分析中，ChatGPT-4o在青光眼和视网膜问题上的表现较为一致，而在角膜问题上，调整后的回答质量有显著提升。这一现象可能与角膜问题本身的复杂性有关，例如涉及手术类型、术后护理、疾病进展等方面的问题，这些内容可能需要更深入的医学知识，而调整回答复杂度后，模型能够以更清晰、简洁的方式表达，从而减少误解的可能性。此外，研究还发现，尽管模型在回答某些类型的问题时表现良好，但仍有部分回答需要进一步澄清或被评定为不可接受，这表明模型在处理某些特定问题时仍存在局限。

研究的局限性包括样本量较小，仅来自一家三级眼科中心，且每位亚专科仅由一位医生负责。因此，研究结果可能无法完全代表其他医疗机构或不同医生群体的情况。此外，模型的回答依赖于其内部数据库，而这些数据可能并未涵盖最新的医学进展，因此在某些情况下，回答可能不够全面或存在过时信息。尽管如此，研究仍指出，通过适当的提示和调整，ChatGPT-4o可以生成适合普通患者理解的高质量回答，为未来在临床实践中应用此类技术提供了初步依据。

从更广泛的角度来看，这项研究不仅探讨了ChatGPT-4o在回答患者问题时的表现，还强调了人工智能在医疗领域的潜力。随着AI技术的不断发展，语言模型在医学信息处理中的应用越来越受到关注。例如，有研究表明，ChatGPT-3.5在没有额外训练的情况下，几乎可以达到美国医师执照考试的及格水平，而其他类似模型如Bing Chat的表现也接近人类考生的平均水平。这些结果表明，AI在提供医学信息方面具有一定的可行性，但仍需进一步优化，以确保其回答既准确又易于理解。

然而，尽管AI在某些方面表现出色，其在临床实践中的应用仍面临挑战。首先，AI模型的回答可能受到其训练数据的限制，无法完全覆盖所有医学知识，尤其是最新的研究成果。其次，AI的回答可能存在一定的主观性，因为评估者是人类医生，他们的判断可能受到个人经验和偏见的影响。此外，AI在处理复杂问题时可能无法提供足够的细节，导致回答不完整或需要进一步澄清。因此，研究团队建议在实际应用中，应结合医生的专业判断，对AI生成的回答进行进一步审核和优化，以确保其准确性和适用性。

在实际应用中，AI技术可以帮助医生更高效地处理患者的常见问题，尤其是在门诊或远程医疗环境中。例如，患者可能在等待就诊时提出一些关于药物副作用、手术恢复过程或症状管理的问题，这些问题通常可以通过AI快速回答。然而，对于更复杂或需要个性化建议的问题，AI可能无法提供足够的信息，因此仍需医生的介入。此外，AI的回答可能需要根据患者的教育背景进行调整，以确保所有患者都能理解。例如，针对教育水平较低的患者，可以使用更简单的语言和更直观的解释，而针对教育水平较高的患者，则可以提供更详细的信息。

总的来说，这项研究为AI在医疗领域的应用提供了重要的参考。虽然ChatGPT-4o在回答患者问题时表现出较高的准确性，但其回答的可读性仍是一个需要解决的问题。通过调整回答的复杂度，可以显著提升其可读性，同时保持信息的准确性。未来的研究应进一步探索如何优化AI模型，使其能够更好地适应不同患者的需求，并在实际临床环境中发挥作用。此外，还需要考虑AI在处理不同类型问题时的表现差异，以及如何在不牺牲质量的前提下，提高回答的普及性和实用性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号