当前流行的人工智能聊天机器人在患者信息方面能为我们提供什么帮助？对十大最受欢迎的聊天机器人关于膀胱癌问题的回答进行比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Cancer Survivorship》：What do the current popular artificial intelligence chatbots offer us regarding patient information? Comparison of responses from the ten most popular chatbots about bladder cancer

【字体：大中小】 时间：2025年11月20日 来源：Journal of Cancer Survivorship 2.9

编辑推荐：

　　AI聊天机器人对膀胱癌患者信息生成质量与可读性评估显示显著差异，Meta得分最低，Llama最高，Google Palm可读性最佳，Llama最难理解。

摘要

引言

人工智能（AI）正在通过改善患者和临床医生获取和理解医疗信息的方式，迅速改变医疗行业。生成式AI模型能够回答医疗相关问题，并提供定制化且快速的响应。本研究评估了10个流行的基于AI的聊天机器人所提供的膀胱癌（BC）患者信息的质量和可读性。

材料与方法

我们使用了10个流行聊天机器人的最新版本：OpenAI的GPT-4o、微软的Copilot Pro、Claude-3.5 Haiku、Sonar Large、Grok 2、Gemini Advanced 1.5 Pro、Mistral Large、Google Palm 2（Google Bard）、Meta的Llama 3.3以及Meta AI v2。我们设计了相关提示，以生成关于膀胱癌、非肌层浸润性膀胱癌、肌层浸润性膀胱癌和转移性膀胱癌的文本。为了评估信息质量，我们使用了修改后的“确保患者信息质量”（mEQIP）工具、质量评估评分工具（QUEST）和DISCERN工具。同时，我们还利用平均阅读水平共识（ARLC）、Flesch阅读易度（FKRE）和Flesch-Kincaid年级水平（FKGL）来评估文本的可读性。

结果

10个聊天机器人在mEQIP、DISCERN和QUEST的平均得分上存在统计学上的显著差异（分别对应

0.048

、

0.025

和

0.021

）。Meta在这三项指标上的得分最低，而Llama的得分最高。在平均ARLC、FKGL和FKRE得分上也存在统计学上的显著差异（分别对应

0.002

、

0.001

和

0.002

），其中Google Palm生成的文本最易阅读，而Llama则是最难理解的聊天机器人。

结论

AI聊天机器人能够生成质量中等、可读性较好的膀胱癌相关信息，但不同平台之间的表现存在显著差异。由于采用了单一查询的方法以及AI模型持续进步，因此应对研究结果持谨慎态度。临床医生可以通过提供结构化的反馈，并将内容审核环节纳入患者教育流程，来确保信息使用的安全性。医疗从业者与AI开发者之间的持续合作对于保持AI生成内容的准确性、时效性和清晰度至关重要。

引言

人工智能（AI）正在通过改善患者和临床医生获取和理解医疗信息的方式，迅速改变医疗行业。生成式AI模型能够回答医疗相关问题，并提供定制化且快速的响应。本研究评估了10个流行的基于AI的聊天机器人所提供的膀胱癌（BC）患者信息的质量和可读性。

材料与方法

我们使用了10个流行聊天机器人的最新版本：OpenAI的GPT-4o、微软的Copilot Pro、Claude-3.5 Haiku、Sonar Large、Grok 2、Gemini Advanced 1.5 Pro、Mistral Large、Google Palm 2（Google Bard）、Meta的Llama 3.3以及Meta AI v2。我们设计了相关提示，以生成关于膀胱癌、非肌层浸润性膀胱癌、肌层浸润性膀胱癌和转移性膀胱癌的文本。为了评估信息质量，我们使用了修改后的“确保患者信息质量”（mEQIP）工具、质量评估评分工具（QUEST）和DISCERN工具。同时，我们还利用平均阅读水平共识（ARLC）、Flesch阅读易度（FKRE）和Flesch-Kincaid年级水平（FKGL）来评估文本的可读性。

结果

10个聊天机器人在mEQIP、DISCERN和QUEST的平均得分上存在统计学上的显著差异（分别对应

0.048

、

0.025

和

0.021

）。Meta在这三项指标上的得分最低，而Llama的得分最高。在平均ARLC、FKGL和FKRE得分上也存在统计学上的显著差异（分别对应

0.002

、

0.001

和

0.002

），其中Google Palm生成的文本最易阅读，而Llama则是最难理解的聊天机器人。

结论

AI聊天机器人能够生成质量中等、可读性较好的膀胱癌相关信息，但不同平台之间的表现存在显著差异。由于采用了单一查询的方法以及AI模型持续进步，因此应对研究结果持谨慎态度。临床医生可以通过提供结构化的反馈，并将内容审核环节纳入患者教育流程，来确保信息使用的安全性。医疗从业者与AI开发者之间的持续合作对于保持AI生成内容的准确性、时效性和清晰度至关重要。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号