多模态大语言模型在激光视力矫正安全评估中的创新应用与深远意义
在当今科技飞速发展的时代,人工智能与医疗领域的融合成为了备受瞩目的研究方向。来自韩国延世大学原州校区生物医学工程系等多个单位的研究人员,在 npj Digital Medicine 期刊上发表了题为 “Application of multimodal large language models for safety indicator calculation and contraindication prediction in laser vision correction” 的论文。该期刊与首尔国立大学盆唐医院合作出版,在数字医学领域具有较高的影响力。这篇论文聚焦于多模态大语言模型在激光视力矫正中的应用,为提升激光视力矫正手术的安全性和精准性提供了新的思路和方法,对推动眼科医学的发展具有重要意义。
一、研究背景
随着人工智能技术的不断进步,生成式人工智能在众多领域得到了广泛应用,其已超越简单的数据处理范畴,能够实现数据的转换与对话系统的创建。在眼科领域,基于大语言模型的数据分析方法也逐渐崭露头角。以 ChatGPT-4 为代表的先进人工智能系统,开始在眼科手术规划和疾病信息提供方面发挥作用。
激光视力矫正手术,如激光原位角膜磨镶术(LASIK)和准分子激光角膜切削术(PRK),已成为矫正视力的常见手段。然而,手术的安全性至关重要。目前,已有多种指标用于评估激光视力矫正手术的安全性,例如残余基质床厚度(RSB)、组织消融百分比(PTA)以及 Randleman 扩张风险评分系统(ERSS)等,这些指标对于检测圆锥角膜等角膜屈光手术的禁忌症具有重要意义 。但手动计算这些安全指标既耗时又费力,临床医生在评估手术风险时,难以全面综合考虑年龄、角膜厚度、消融深度和手术条件等多种因素。若忽视这些因素,手术安全性将受到威胁,尤其是在涉及瓣创建和高度近视的 LASIK 手术中。
尽管人工智能技术已被探索应用于视力矫正领域,但现有的人工智能工具存在复杂性高、用户友好性差等问题,临床医生难以将其融入常规手术评估流程。因此,开发一种高效、准确且易于使用的工具来辅助临床医生进行激光视力矫正手术的安全评估迫在眉睫。
二、研究材料与方法
(一)数据收集
研究人员对 B&VIIT 眼科中心的眼部测量数据进行了回顾性分析。数据涵盖了 2022 年 4 月至 6 月期间接受 LASIK 或 PRK 近视矫正手术的患者,以及因禁忌症被认为不适合手术的患者。所有患者术前均使用 Pentacam Scheimpflug 设备进行了明显屈光、角膜断层扫描和中央角膜厚度的测量。专家眼科医生计算了 PTA 和 ERSS,以评估手术的适用性。研究排除了检查不完整或数据缺失的患者。该研究方案获得了韩国国家生物伦理政策研究所伦理委员会的批准,并遵循赫尔辛基宣言。输入 ChatGPT-4 的数据均经过匿名化处理,去除了个人信息。
(二)关键技术路线
研究聚焦于多模态大语言模型 ChatGPT-4 在激光视力矫正安全评估中的应用。研究人员向 ChatGPT-4 提供包含患者年龄、术前明显屈光、角膜厚度、角膜形状、光学区和瓣厚度等信息的病例描述,要求其使用 Munnerlyn 公式计算消融深度和术后 RSB,计算 LASIK 和 PRK 的 PTA 以及 LASIK 的 ERSS。值得注意的是,ChatGPT-4 并非预先知晓这些计算公式,而是从提示中推断得出。此外,研究人员还要求 ChatGPT-4 生成基于 HTML 的计算器。
为验证结果,研究人员将 ChatGPT-4 的计算值与专家手动计算值,以及 Gemini Advance 系统和 LLAMA-3 的输出进行了比较。研究人员通过官方服务主页访问 Gemini Advance,通过 Hugging Face 平台使用 LLAMA-3。针对每个病例创建新的对话,并记录相关指标的计算值。手动计算由专业人员依据医疗记录完成,通过配对 t 检验比较计算值的平均值和偏差。
研究人员还对比了 ChatGPT-4 与传统机器学习模型筛选 LASIK 手术候选人的能力。传统机器学习模型是一种基于集成算法的模型,需要手动输入眼部生物特征数据和 Pentacam 测量数据来标准化数据集。而 ChatGPT-4 则通过将 Pentacam 图像拖入聊天窗口,并结合提示中的屈光信息进行角膜地形图图像的处理。研究人员输入中心预定义的安全筛查标准,对每个病例进行分析。研究人员对比了 ERSS 计算器、传统机器学习集成模型和 ChatGPT-4 预测角膜激光手术禁忌症的能力,评估指标包括准确性、敏感性、特异性、数据输入时间和计算时间。通过 ROC 曲线评估诊断性能,计算每个模型的 AUC,并使用卡方检验和成对比较来确定方法之间的统计学差异。
研究人员使用来自公开文献的角膜地形图图像数据,对 ChatGPT-4 进行额外测试,以验证其独立于模态的分析能力,评估其是否能准确检测圆锥角膜这一激光视力矫正手术的关键禁忌症。
三、研究结果
(一)安全指标计算
研究人员分析了 68 例符合手术条件患者(其中 44 例 LASIK 和 24 例 PRK)的 136 只眼睛,以及 32 例禁忌患者的 64 只眼睛的数据。ChatGPT-4 成功处理了所有患者的眼部数据,在无需事先知晓单位信息的情况下,准确推断出每个参数的单位。其计算的消融深度、RSB、PTA 和 ERSS 值与专家手动计算值相符。通过统计分析,在符合手术条件和禁忌的两组患者中,手动计算、ChatGPT-4 和 Gemini Advance 的计算结果之间均未发现显著差异。虽因数据舍入方法存在微小差异,但 ChatGPT-4 未出现计算错误或幻觉现象。相比之下,LLAMA-3 在数值运算中频繁出错,与手动计算结果相比,所有计算指标均存在显著差异。这表明 ChatGPT-4 在激光视力矫正安全指标计算方面具有较高的准确性和可靠性,能够有效辅助临床医生进行手术风险评估。
(二)计算器生成
ChatGPT-4 能够根据提示指令生成用于屈光手术指标计算的自定义计算器。该计算器基于超文本标记语言(HTML)开发,与所有操作系统兼容。研究人员只需向 ChatGPT-4 发出简单提示,它就能成功生成计算器的 HTML 代码,完整代码可在指定网站获取。该计算器还可由各个视力矫正中心通过定制提示进行进一步个性化定制,以满足特定临床需求。而 Gemini Advance 在生成 ERSS 公式时反复出现幻觉现象,导致生成的计算器不准确。这体现了 ChatGPT-4 在生成功能方面的优势,为临床实践提供了便捷的计算工具。
(三)禁忌症预测
在预测角膜激光手术禁忌症方面,研究人员对比了基于 HTML 的 ERSS 计算器、机器学习集成模型和 ChatGPT-4(结合角膜测量的多模态分析)的性能。ChatGPT-4 能够有效分析角膜地形图图像,准确检测早期圆锥角膜或亚临床扩张。它通过识别 Pentacam 图像中的关键诊断特征,提供详细的结论依据,清晰地解释了分析结果。在区分 LASIK 手术可行和禁忌的病例时,ChatGPT-4 利用 Pentacam 成像和验光数据,全面解释了正常与病理异常的区别。
通过 ROC 曲线分析,ChatGPT-4 在筛选 LASIK 手术候选人方面表现出卓越的诊断性能,其曲线下面积(AUC)达到 0.977,高于机器学习集成模型(AUC = 0.930)、ERSS(AUC = 0.788)和 PTA(AUC = 0.897)。ChatGPT-4 的敏感性为 98.4%,特异性为 97.1%。虽然 ChatGPT-4 的平均计算时间(27.02 秒)比机器学习集成模型(1.83 秒)和 ERSS(即时)长,但因其更高的准确性和详细的结果解释,使其成为角膜手术禁忌症临床决策的可行工具。此外,研究人员使用外部文献中的图像对 ChatGPT-4 进行验证,结果表明它能成功分析来自不同设备(如 Pentacam、CASIA2、NIDEK OPD III、RTVue 和 Galilei G4)的角膜测量数据,准确诊断出圆锥角膜。这充分证明了 ChatGPT-4 在预测角膜激光手术禁忌症方面的准确性和广泛适用性,为临床医生提供了更可靠的决策依据。
(四)多模态大语言模型与传统机器学习对比
在与传统机器学习模型的对比中,ChatGPT-4 展现出独特优势。传统机器学习模型通常需要手动输入数据,且针对不同的角膜测量设备需要构建特定的模型并进行单独训练。而 ChatGPT-4 基于光学字符识别(OCR)的无模态依赖系统,能够自动提取和分析角膜地形图图像,无需手动输入数据,且无需针对特定设备进行单独训练,可对不同设备获取的数据进行无缝分析。在数据输入时间方面,ChatGPT-4 显著短于机器学习集成模型;在准确性、敏感性和特异性方面,ChatGPT-4 与机器学习集成模型相当,但在结果解释和对不同设备数据的适应性上更具优势。这表明 ChatGPT-4 在处理多模态数据和适应不同测量设备方面具有明显优势,能够更高效、便捷地辅助临床医生进行手术评估。
四、研究结论与讨论
(一)研究结论
本研究表明,多模态大语言模型 ChatGPT-4 在激光视力矫正手术的安全指标计算和禁忌症预测方面具有显著优势。它能够准确计算关键安全指标,生成实用的计算器,且在分析手术候选人时,相比传统机器学习系统,即使处理非结构化数据也具有更高的准确性。ChatGPT-4 的计算结果与专家计算结果相当,且能提供详细的解释,增强了分析的清晰度和实用性。此外,它还具有作为教育工具的潜力,可在移动和桌面平台上使用,为临床医生提供实时的交互式决策支持。
(二)讨论
尽管 ChatGPT-4 在本研究中表现出色,但它也存在一些局限性。作为通用大语言模型,其训练并未优先考虑医学准确性和特定领域知识,在眼科等专业领域可能面临挑战。同时,ChatGPT-4 和 Gemini Advance 的商业性质及使用费用可能限制其可及性,尤其是在资源有限的地区,而这些地区的临床医生可能最需要这类决策支持系统。为解决这些问题,未来研究应探索使用开源或轻量级大语言模型作为经济有效的替代方案,并考虑使用医学数据集对模型进行微调,以提高其在临床环境中的可靠性和适用性。
本研究的局限性还包括回顾性设计,未来需要进行前瞻性研究来评估 ChatGPT-4 在视力矫正诊所中的临床优势。此外,研究方法未在多个中心进行验证,可能限制结果的普遍性。但由于安全指标的计算方法在各机构间具有标准化特点,计算过程的外部验证可能并非必需。研究人员通过使用公开文献中的角膜测量数据进行外部验证,证实了 ChatGPT-4 在不同临床环境中应用于屈光手术数据的稳健性。
(三)重要意义
本研究成果对于推动激光视力矫正手术的发展具有重要意义。ChatGPT-4 为临床医生提供了高度便捷的工具,有助于更全面地评估手术安全性,提高手术决策的准确性。其在禁忌症预测方面的卓越性能,能够有效避免不适合手术的患者接受手术,降低手术风险。同时,ChatGPT-4 在处理非结构化数据和生成计算器方面的能力,为眼科临床实践带来了创新的解决方案,有望在视力矫正机构中广泛应用。随着人工智能技术的不断发展,确保数据安全标准的合规性和透明的数据处理过程对于临床应用至关重要。未来,多模态大语言模型在眼科医学领域的深入应用,将为提升医疗服务质量、保障患者安全提供有力支持,具有广阔的发展前景。