编辑推荐:
为解决从 OCT 数据预测 VF 参数的难题,新南威尔士大学的研究人员开展利用可解释机器学习预测 VF 参数的研究。结果显示模型性能良好,还明确关键特征。该研究为青光眼诊断提供新方法,极具科研价值,推荐阅读!
来自新南威尔士大学计算机科学与工程学院(School of Computer Science and Engineering, University of New South Wales)的 Md Mahmudul Hasan 等人在《Scientific Reports》期刊上发表了题为 “Predicting visual field global and local parameters from OCT measurements using explainable machine learning” 的论文。这篇论文在青光眼诊断领域意义重大,它为利用光学相干断层扫描(Optical Coherence Tomography,OCT)数据预测视野(Visual Field,VF)参数提供了新的方法和思路,有望助力临床医生更准确、高效地诊断青光眼,改善患者的诊疗效果。
研究背景
青光眼是全球范围内导致失明的主要原因之一,它会造成渐进性且不可逆的视力丧失,严重影响患者的生活质量。青光眼的主要特征是视野逐渐受损,这是由于神经节细胞(Ganglion Cell,GC)死亡、轴突丢失等结构变化,导致视网膜神经纤维层(Retinal Nerve Fiber Layer,RNFL)出现缺损以及神经视网膜边缘变薄。
目前,怀疑患有青光眼的患者通常会接受静态自动视野计(Static Automated Perimetry,SAP)检查,其中 Humphrey 24 - 2 测试网格瑞典互动阈值算法(Swedish Interactive Threshold Algorithm,SITA)是最常用的视野测试方法。然而,在实际应用中,视野测试面临诸多挑战。对于一些患者群体,如老年人、身体有严重限制的患者、患有神经系统疾病的患者以及服用影响中枢神经系统药物的患者,进行视野测试存在困难,可能导致测试结果不可靠。此外,SAP 本身也存在主观性强、个体内差异大、测试时间长以及需要特定测试设备等固有局限性。当青光眼发展到中度视野丧失阶段,测试 - 复测的变异性会大幅增加,限制了对病情变化的可靠评估。
OCT 作为一种快速、相对容易获取的检查手段,能够提供视网膜各层的详细无创图像,具有高分辨率、可检测早期结构变化以及便于融入常规临床实践等优点。如果能利用 OCT 数据准确预测视野敏感度,将有助于指导临床医生进行多模式诊断和制定合理的管理策略。尽管已知视网膜结构与功能存在关联,但从 OCT 测量的视网膜层厚度准确预测视野敏感度仍颇具挑战,此前的研究大多使用深度学习模型,但这些模型存在计算成本高、缺乏可解释性等问题。
研究方法
- 数据采集与标注:研究获得了新南威尔士大学的伦理批准(HC210563),所有参与者均签署了书面知情同意书。数据来自 2015 年至 2021 年在眼健康中心(Centre for Eye Health,CFEH)就诊的患者。青光眼和其他眼部疾病的诊断遵循 CFEH 的程序和协议,由资深临床医生、验光师或眼科医生进行全面的临床数据审查,并经额外专家补充检查后确定。研究纳入了 268 只青光眼眼(其中早期 86 只、中度 72 只、晚期 110 只)和 226 只正常眼,且健康个体与青光眼患者年龄相似。同时,对 OCT 图像应用了严格的质量控制标准,只有信号强度≥6、无明显运动伪影、扫描中心对准视神经头或黄斑且无分割错误的图像才被纳入分析。
- 特征提取、插补与回归分析:从 OCT 图像中提取了 45 个空间域特征,包括 RNFL、GC - 内丛状层(Inner Plexiform Layer,IPL)和黄斑(Macular,MC)厚度等,这些特征有助于区分青光眼、青光眼疑似患者和健康群体。对于存在数据伪影的患者,采用链式方程多重填补法(Multiple Imputation using Chained Equations,MICE)对部分缺失数据(占总样本的 5.22%)进行插补。利用自定义 MATLAB 程序提取 24 - 2 VF 数据(逐点敏感度和全局指标 MD、VFI、PSD),并将其作为回归模型的目标输出,以 OCT 数据为输入。基于不同算法训练了三种监督回归模型,即 XGBoost、支持向量机(Support Vector Machine,SVM)和随机森林(Random Forests,RF)回归器,并通过网格搜索算法对超参数进行微调以优化准确性。对 SVM 进行特征缩放,而 XGBoost 和 RF 因算法稳健性无需缩放。为解决数据不平衡问题,采用合成少数过采样技术(Synthetic Minority Over - sampling Technique,SMOTE)对少数群体(正常受试者)进行过采样。所有模型均在 Python 3.7 的 Google Colab 平台上实现。
- 性能评估指标:使用多种指标评估机器学习回归性能,包括平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)、相关系数(Correlation Coefficient,R)和平均结构相似性指数(Mean Structural Similarity Index,MSSI)。MAE 衡量预测值与实际值的平均绝对差异,RMSE 通过计算平均平方差的平方根来强调较大误差,R 表示预测值与实际值之间的线性关系,MSSI 用于量化预测值与实际值在图像分析任务中的相似性,考虑了亮度、对比度和结构等因素。为确保结果可靠,采用患者级别的数据划分方式,并通过五折交叉验证评估模型的稳健性。
- 可解释机器学习(eXplainable Machine Learning,XML):运用 SHAP(Shapley Additive exPlanations)这一模型无关的可解释分析方法。SHAP 利用博弈论中的 Shapley 值公平地将模型预测归因于各个特征,评估特征的重要性。通过 SHAP - 基于的特征重要性分析、SHAP 依赖图和 SHAP 交互图来分析特征贡献。
- 预测工具开发:利用 SHAP - 基于的特征重要性,开发了一个包含机器学习模型的网络应用程序(OCT to VF Predictor App)。将模型集成到网络应用框架中并部署到服务器上,临床医生可输入关键特征(如平均 RNFL 厚度、RNFL 对称性百分比等),获取预测的视野全局指标(MD、VFI、PSD 值)和局部阈值敏感度值。该工具优先考虑 SHAP 分析确定的关键特征,并通过绘制预测概率与个体样本 MD 值的关系图来验证应用程序生成的似然分数。
研究结果
- 全局指标预测
- 平均偏差(Mean Deviation,MD):使用 RNFL、GC 和 MC 厚度特征作为输入,通过 XGBoost、SVM 和 RF 三种回归器对 MD 进行预测。在使用 MICE 增强和 SMOTE 过采样的数据时,所有回归器表现良好,MAE 范围为 2.28 - 2.54 dB,RMSE 范围为 3.30 - 3.64,RF 的 MAE 最低(2.28 dB),RMSE 最低(3.30 dB),R 范围为 0.74 - 0.76,RF 的 R 最高(0.76)。在使用原始数据集(未增强)时,回归器的性能有所提升,MAE 范围为 2.21 - 2.32 dB,RMSE 范围为 3.12 - 3.55,R 范围为 0.73 - 0.77。当使用原始清洁数据训练模型并仅用增强数据测试时,模型性能下降,但 MAE 仍在标准测试 - 复测变异性范围内,表明模型具有稳健性。
- 视野指数(Visual Field Index,VFI):同样使用上述三种回归器和相同特征集对 VFI 进行预测。在增强数据上,回归器表现良好,MAE 范围为 4.68 - 5.63,RMSE 范围为 8.31 - 11.05,XGBoost 的 MAE 最低(4.68),RMSE 最低(8.31),R 范围为 0.72 - 0.80,XGBoost 的 R 最高(0.80)。在原始数据集上,回归器性能与增强数据上的评估结果相似;当用原始清洁数据训练、增强数据测试时,模型性能下降,但仍能确认模型的稳健性。
- 模式标准差(Pattern Standard Deviation,PSD):对 PSD 进行预测,在增强数据上,XGBoost 的 MAE 最低(1.55 dB),RMSE 最低(2.34),R 范围为 0.74 - 0.76,XGBoost 的 R 最高(0.76)。在原始数据集上,回归器性能与增强数据上相似;用原始清洁数据训练、增强数据测试时,模型性能下降,但仍显示出模型的稳健性。此外,研究还发现实际 VFI 与实际 MD 呈正相关(R = 0.96,XGBoost),实际 PSD 与 MD 呈负相关(R = -0.83,XGBoost),预测的 VFI 和 PSD 与实际 MD 也具有较高相关性,证实了预测指标的实用性。
- 局部指标预测
- 逐点敏感度值:利用 OCT 数据预测 52 个局部 VF 阈值敏感度值(排除盲点处的两个测试网格位置)。原始数据点的回归器 MAE 范围为 3.23 - 3.52 dB,SVM 的 MAE 最低(3.23 dB)。引入 “步长” 概念并对低于 14 dB 的敏感度值进行归一化处理后,回归器性能提升,MAE 范围为 2.51 - 2.77 dB,SVM 的 MAE 最低(2.51 dB)。使用原始清洁数据训练和测试时,回归器在逐点敏感度预测上性能进一步提升,归一化后的最低 MAE 为 2.49 dB(RF)。当使用原始数据训练、部分增强数据测试时,性能下降,但归一化仍能提高回归器性能。
- 灰度图像预测:使用 OCT 特征预测灰度图像,SVM 的 MAE 最低(10.55),RF 的 MSSI 最高(0.77)。使用原始清洁数据训练和测试时,回归器性能提升,SVM 的 MAE 最低(10.09),RF 的 MSSI 最高(0.78)。当用原始数据训练、部分增强数据测试时,性能下降。从定性评估来看,预测的灰度图像在正常和早期青光眼病例中能显示出明显的功能性视力丧失,但在预测中度青光眼的视野时,可能会遗漏一些细节。
- 可解释机器学习结果
- SHAP 特征排名:通过 SHAP 分析确定了多个重要特征,其中 RNFL 时钟小时 - 6(RNFL inferior 的一部分)最为重要,此外还有边缘区域(Rim area)、GC - IPL 厚度最小值、RNFL 对称性等。SHAP 总结图显示,较高的边缘区域、GC - IPL 厚度和 RNFL 对称性与预测较高的 MD 值(可能为正常受试者)相关,而较低的值则与预测较低的 MD 值(可能为青光眼患者)相关;平均和垂直 C/D 比的趋势则相反。
- SHAP 依赖图:SHAP 依赖图表明,较低的 RNFL 时钟小时 - 6 厚度、RNFL 对称性、GC - IPL 厚度和边缘区域与预测较低或更负的 MD(可能为青光眼)的可能性更高相关,而较高的值则预测较高或更正的 MD(可能为正常),且在特定数值附近存在交叉。RNFL 对称性与其他重要特征的交互作用表明,当 RNFL 时钟小时 - 6 厚度、GC - IPL 厚度最小值或边缘区域较低,同时 RNFL 对称性也较低时,预测较低或负 MD(可能为青光眼)的可能性增加。
- 应用开发(机器学习模型部署为网络应用程序):基于可解释的结果,开发了 OCT to VF Predictor App。该应用程序部署了基于 RF 的回归模型,用于预测全局指标和局部指标。临床医生输入 SHAP 分析确定的 12 个重要特征后,RF 回归器在预测 MD、VFI、PSD 时,MAE 分别为 2.20 dB、5.18 (%)、1.58 dB,R 分别为 0.78、0.77、0.74;在预测逐点敏感度时,归一化后的 MAE 为 2.73 dB,原始数据的 MAE 为 3.47 dB;在生成灰度图像时,MSSI 为 0.76。
研究结论与讨论
本研究成功开发了一种利用 OCT 参数可靠预测 VF 参数的方法。通过 XML 分析发现,RNFL 时钟小时 - 6、边缘区域、最小神经节细胞厚度以及 RNFL 对称性等 12 个特征是预测 MD 等指标的有效特征,这些特征在预测 MD、VFI、PSD 和局部阈值敏感度时表现良好。
与现有深度学习研究相比,本研究使用 OCT 空间域特征结合机器学习模型,在全局和局部预测方面均展现出潜力。尽管由于数据集、输入类型和实验设置的差异,无法与深度学习研究进行直接比较,但在 MD 预测上,本研究的回归模型性能优于部分深度学习模型;在局部阈值敏感度预测上,也超越了多项相关研究。然而,研究也存在一些局限性。在预测局部敏感度值时,20 dB 以下的预测存在高变异性,可能是由于测量下限效应和该范围内训练数据有限。研究中使用的 MICE 算法和 SMOTE 过采样方法,在测试集仅包含增强数据时会导致模型性能下降,未来可考虑使用更大的数据集和替代的插补、过采样技术。此外,本研究缺乏外部测试,模型的泛化性有待进一步验证,且仅使用了 OCT 空间域特征,未来可探索结合频率域特征、多模态数据来提升预测性能,并添加隐私保护机制。
总体而言,本研究为青光眼的诊断提供了新的可解释的机器学习方法和工具,有助于临床医生更好地理解模型决策过程,提高青光眼诊断的准确性和效率,对青光眼的早期诊断和治疗具有重要意义,也为后续相关研究奠定了基础。