对大型语言模型进行基准测试,以提供个性化的、基于生物标志物的健康干预建议
《npj Digital Medicine》:Benchmarking large language models for personalized, biomarker-based health intervention recommendations
【字体:
大
中
小
】
时间:2025年10月29日
来源:npj Digital Medicine 15.1
编辑推荐:
LLMs在生成个性化长寿干预建议时存在显著局限性,专有模型(如GPT-4o)在全面性、正确性等方面优于开源模型,但所有模型均未完全满足医疗验证要求。研究采用BioChatter框架,通过25个合成临床案例生成1000种测试场景,评估56000次模型响应,发现模型性能受系统提示复杂度、年龄组别及疾病类型影响,RAG增强对开源模型有益但对专有模型有害。开放框架提供医疗AI基准评估范式。
在医学领域,尤其是临床诊断和干预规划中,大型语言模型(LLMs)的应用正在迅速扩展。然而,这些模型在为个性化长寿干预提供建议方面的实际效用仍然不够明确。为此,研究者们开发了一个名为BioChatter的框架,用以评估LLMs在生成基于生物标志物的个性化长寿干预建议时的能力。该研究通过对不同年龄段的25个个体的生物标志物数据进行分析,生成了1000个多样化的测试案例,涵盖了包括热量限制、间歇性禁食和补充剂在内的多种长寿干预方式。通过一个由临床医生验证的基准数据集,研究者们对56000个模型响应进行了评估,发现尽管一些模型在综合性和准确性方面表现突出,但所有模型在满足关键医疗验证要求、提示稳定性以及处理与年龄相关的偏见方面仍存在局限。研究结果表明,LLMs在未经监督的长寿干预建议方面并不完全适合应用。同时,该开放源代码框架为未来在不同医疗场景中进行AI基准测试提供了基础。
大型语言模型(LLMs)近年来在医学领域的应用日益广泛,成为诊断、临床决策支持、医学写作、教育和个性化医疗等重要工具。特别是在老年医学和长寿医学领域,LLMs被用于健康监测、老年评估与护理、精神医学和风险评估等方面。其他研究也指出,这些技术及其相关应用(如机器人)在支持认知健康、社交互动、辅助生活和康复方面具有巨大潜力。然而,目前的LLMs在医疗应用中的表现仍然存在争议,特别是在提供个性化医疗建议方面,其准确性、可靠性和一致性尚未达到理想水平。因此,建立一个科学、严谨且可重复的评估框架,对于全面理解LLMs在医疗领域的实际能力至关重要。
在本研究中,研究团队构建了一个专门针对长寿干预建议的评估框架,并结合了临床医生的专业意见,以确保其科学性和实用性。研究中使用的测试案例基于合成的生物标志物数据,涵盖了不同年龄组和不同干预类型的组合,以模拟真实世界的复杂情况。每个测试案例均设计为开放性问题,要求模型根据个体的健康状况提供具体的干预建议。此外,测试案例还包含了多种提示格式,以评估模型对不同输入结构的适应能力。研究团队还引入了检索增强生成(RAG)技术,以提高模型在处理复杂任务时的表现。通过这种方式,模型能够利用外部数据资源来增强其回答的准确性和全面性。然而,研究结果表明,即使在使用RAG的情况下,所有模型在满足关键医疗验证要求方面仍然存在一定的局限性。
研究团队对多个模型进行了评估,包括Llama 3.2 3B、Qwen 2.5 14B、DeepSeek R1 Distill Llama 70B(DSR Llama 70B)、GPT-4o mini、o3 mini和GPT-4o,以及一个专门针对生物医学领域的模型Llama3 Med42 8B。这些模型被分为两类:专有模型和开源模型。评估过程中,研究团队使用了GPT-4o mini作为“LLM-as-a-Judge”(LLM作为裁判),以判断模型在五个关键医疗验证要求下的表现,包括全面性(Comprehensiveness)、正确性(Correctness)、实用性(Usefulness)、可解释性(Interpretability/Explainability)以及对毒性和安全性的考虑(Toxicity/Safety)。结果显示,尽管专有模型在某些方面表现优于开源模型,但所有模型在满足这些要求时仍存在不足,尤其是在提示稳定性、处理年龄相关偏见以及应对复杂的医疗情境时。
此外,研究还发现,LLMs在回答中的全面性与安全性之间存在一定的权衡。虽然所有模型在安全性方面表现出色,但全面性往往不足。这意味着,尽管模型能够避免推荐可能有害的干预方式,但其回答可能缺乏足够的细节和信息,无法全面覆盖用户的潜在需求。这种现象可能反映了LLMs在处理复杂任务时的局限性,即它们倾向于生成简洁、安全的回答,而忽视了更深层次的信息整合和个性化建议的生成。研究团队指出,全面性虽然是一个重要的评估维度,但过度追求全面性可能会导致信息过载,从而降低回答的可理解性和实用性。
研究还探讨了不同系统提示对模型性能的影响。系统提示的复杂性直接影响了模型在不同任务中的表现。例如,使用“要求明确”(Requirements-explicit)提示的模型在全面性和正确性方面表现出更高的准确性,而使用“最小提示”(Minimal)的模型则在这些方面表现较差。这一发现表明,系统提示的设计对于LLMs的性能至关重要,合理的提示可以显著提升模型的表现。然而,研究团队也指出,提示的复杂性并不总是意味着更好的结果,有时简单的提示反而能够更有效地引导模型生成高质量的回答。这表明,提示设计需要在简洁性和信息完整性之间找到平衡,以确保模型能够准确理解和回应用户的请求。
在测试案例的结构设计上,研究团队采用了模块化的方式,通过不同的背景信息、生物标志物数据和问题形式,生成了多样化的测试场景。这种方式不仅增加了测试的复杂性,还提高了模型在处理不同输入格式时的适应能力。测试案例的多样性使得模型能够在不同条件下进行评估,从而更全面地反映其在实际应用中的表现。此外,研究还引入了“干扰语句”(distracting statements)的概念,以测试模型在面对不相关信息时的鲁棒性。结果显示,模型在面对干扰信息时表现出一定的稳定性,能够保持对主要问题的关注。然而,这种稳定性并不意味着模型能够完全避免干扰,尤其是在处理复杂或模糊的输入时,模型可能会受到干扰语句的影响。
研究团队还评估了LLMs在不同年龄段个体中的表现差异。结果显示,模型在处理老年个体的健康问题时表现优于年轻和中年个体。这一现象可能与老年个体更常见的退行性疾病(如骨质疏松症、肌肉减少症、冠状动脉疾病等)有关。这些疾病在医学文献中更为常见,因此模型在识别和处理这些疾病时可能具有更高的准确性。然而,对于一些较为罕见的内分泌疾病(如甲状腺功能减退、库欣综合征、肢端肥大症和多囊卵巢综合征),模型的表现则相对较弱。这表明,LLMs在处理特定类型的健康问题时可能存在一定的偏差,特别是在面对罕见疾病时,其准确性可能受到数据可用性的限制。
此外,研究还探讨了RAG对模型性能的影响。尽管RAG通常被认为能够弥补知识差距并提高回答质量,但研究结果显示,RAG的应用并不总是带来正面效果。对于某些模型,RAG的引入反而导致了性能的下降,这可能与模型对训练数据的依赖程度有关。例如,GPT-4o和Llama3 Med42 8B在使用RAG时表现出不同的结果,这表明RAG的效果可能因模型的不同而有所差异。因此,未来的研究需要进一步探索RAG在不同模型中的表现,并评估其对模型回答质量的多方面影响。
研究团队还关注了LLMs在生成医疗建议时的伦理问题。安全性虽然是一个重要的评估维度,但全面性同样不可忽视。如果模型过于注重安全性而忽略了全面性,可能会导致建议过于保守,甚至完全拒绝某些有益的干预措施,如饮食调整或锻炼计划。这可能会影响用户的自主决策权,因为缺乏全面性可能导致用户无法获得足够的信息来做出明智的选择。因此,研究团队强调,模型的全面性与可解释性之间需要找到一个合理的平衡点,以确保用户在获得足够信息的同时,也能理解这些信息的意义。
为了提高评估的准确性和可靠性,研究团队采用了“LLM-as-a-Judge”方法,即让一个LLM作为裁判来评估其他模型的回答质量。这种方法能够减少人为判断的主观性,提高评估的一致性。然而,研究也指出,这种评估方式可能存在一定的偏差,因为裁判模型本身的表现可能影响最终的评分结果。为此,研究团队引入了由临床医生验证的基准数据,以确保评分的客观性和科学性。此外,研究还进行了一项人机一致性评估,结果显示,裁判模型与人类评分者之间的评分一致性较高,但仍然存在一定的差异。这表明,尽管LLMs在某些方面能够模拟人类的判断,但在其他方面仍需进一步优化。
本研究的一个重要发现是,LLMs在处理不同类型的干预建议时表现出不同的能力。例如,在涉及热量限制和间歇性禁食等常见干预方式时,模型的表现相对较好,而在处理较为复杂的药物或补充剂建议时,模型的准确性则有所下降。这可能反映了模型在处理不同类型的干预建议时的训练数据分布不均,或者其对某些特定领域的知识掌握不足。因此,未来的研究需要进一步优化模型的训练数据,以提高其在不同干预类型上的表现。
研究团队还指出,现有的许多医学和生物医学基准测试主要采用多项选择题的形式,这可能无法充分反映LLMs在开放性任务中的能力。因此,本研究构建了一个新的评估框架,能够更全面地评估LLMs在生成个性化医疗建议时的表现。该框架不仅考虑了模型的准确性,还涵盖了全面性、实用性、可解释性和安全性等多个维度,从而更接近真实医疗场景的需求。
此外,研究团队还强调了开源模型和专有模型之间的性能差异。尽管开源模型在某些方面表现出色,但它们在满足关键医疗验证要求时仍存在一定的局限性。而专有模型则在综合性和准确性方面表现更优,但其高昂的成本和封闭性可能限制了其在实际医疗应用中的普及。因此,未来的研究需要探索如何在成本和性能之间找到平衡,以确保LLMs能够在更广泛的医疗场景中得到应用。
总的来说,本研究为LLMs在医学领域的应用提供了重要的参考价值。通过构建一个科学、严谨且可重复的评估框架,研究团队揭示了LLMs在生成个性化长寿干预建议方面的优势和不足。研究结果表明,尽管LLMs在某些方面表现出色,但其在满足关键医疗验证要求、处理年龄相关偏见和应对复杂输入时仍存在局限。因此,未来的研究需要进一步优化模型的训练数据和评估框架,以提高其在实际医疗应用中的表现。同时,研究团队也呼吁更多研究者参与到这一领域中,共同推动LLMs在医学领域的应用和发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号