GPT模型在FHIR能力方面的比较评估
《ACM Transactions on Intelligent Systems and Technology》:Comparative Evaluation of GPT Models in FHIR Proficiency
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
本研究评估了GPT-3.5、GPT-4.0及两个定制模型在FHIR医疗数据交互场景中的性能,采用Token处理成本、综合性能指数等新型评估指标。结果显示GPT-4.0准确性和鲁棒性最优,但均未达到医疗级99%以上的高要求标准,凸显领域专用训练和评估体系优化的必要性。
摘要
确保医疗数据交换的互操作性对于提升患者护理质量至关重要,而Fast Healthcare Interoperability Resources (FHIR?) 已成为这一领域的核心标准。随着医疗行业越来越多地运用人工智能 (AI) 来管理和解析复杂数据,掌握 FHIR 标准对于实现与医疗系统的无缝、可靠交互变得至关重要。本研究评估了生成预训练Transformer (GPT) 模型在 FHIR 方面的表现能力,这些模型是应用于医疗领域的人工智能技术的关键基准。通过新的评估指标(包括令牌处理成本 (TPC)、调整后的令牌处理成本 (ATPC)、综合性能指数 (CPI) 和质量调整后的性能得分 (QAPS)),对 GPT-3.5、GPT-4.0 以及两个自定义模型在两种 FHIR 测试场景下的表现进行了评估。结果显示,GPT-4.0 在准确性和稳定性方面表现优异;而像 “FHIR Interop Expert” 这样的自定义模型则通过有效的提示设计在特定领域任务中表现出色。尽管具备这些能力,但没有任何一个模型能够始终达到高风险的医疗应用所需的 ≥99% 的准确率。研究结果强调了改进特定领域训练和评估方法的重要性。所提出的评估指标为评估人工智能的适用性提供了一个可复制的框架,为负责任且高效地将人工智能整合到医疗工作中奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号