编辑推荐:
研究人员开发 SeizyML,用可解释机器学习模型半自动化检测癫痫发作,提高检测效率与准确性。
癫痫,这个神秘而又令人恐惧的神经系统疾病,如同隐藏在大脑深处的 “定时炸弹”,随时可能因异常的脑电活动引发癫痫发作。目前,癫痫的诊断和研究高度依赖脑电图(EEG)对癫痫发作的检测。然而,传统的手动检测方式就像是在茫茫数据海洋中手动捞针,不仅耗费大量人力、效率低下,还容易出错,主观性强。为了解决这一困境,来自塔夫茨大学医学院(Tufts University School of Medicine)的研究人员展开了深入探索,其研究成果发表在《Neuroinformatics》上。
在癫痫研究领域,准确检测癫痫发作至关重要。但现有的手动检测方法弊端明显,而人工智能和机器学习(ML)技术虽有潜力,却也存在诸多问题。深度学习技术在癫痫检测中虽表现出色,可它就像一个 “黑匣子”,难以解释,让很多临床医生和科学家不敢轻易使用。同时,其训练需要大量数据和昂贵的计算资源,还难以提取与癫痫发作相关的脑电特征。
为突破这些难题,塔夫茨大学医学院的研究人员另辟蹊径,开发了一款名为 SeizyML 的开源软件。这款软件将机器学习模型与人工验证相结合,有望成为推动癫痫研究前进的关键力量。
研究人员在研究过程中采用了多种关键技术方法。首先,他们从先前研究收集的数据中获取用于模型训练、验证和测试的数据,这些数据来自慢性癫痫小鼠模型。同时,他们还利用了波士顿儿童医院 - 麻省理工学院(Boston Children's Hospital - MIT)的人类 EEG 数据集(CHB - MIT)。在数据处理方面,对小鼠数据进行了下采样、滤波等预处理操作;对于人类数据,也进行了类似的预处理,并根据通道情况进行了特征提取和选择。研究人员从每个通道提取了 17 种特征,包括线长度、峰度、偏度等,共得到 34 种特征。在模型选择上,他们挑选了高斯朴素贝叶斯(GNB)、决策树(DT)、随机梯度下降分类器(SGD)和被动攻击分类器(PAC)这四种具有可解释性的模型,并利用交叉验证和网格搜索对模型进行训练和调优。
研究结果表明:
- 模型性能影响因素:通过四向方差分析(ANOVA)发现,模型类型和归一化策略对模型性能影响最大。其中,按文件归一化(per - file normalization)能显著提高模型性能,而特征类型(本地特征、相对特征或两者结合)和特征集(如 Top 5、Top 10 等)对模型性能的影响较小。例如,按文件归一化的 GNB 模型在检测癫痫发作时,F1 分数和平衡准确率更高12。
- 模型预测准确性:不同模型在预测癫痫发作时表现各异。GNB 和 SGD 模型能够可靠地检测到癫痫发作中心周围的癫痫发作片段,预测较为准确;DT 模型虽然也能检测到发作,但会高估癫痫发作终止区域;而 PAC 模型表现最差,预测结果不准确。例如,从预测癫痫发作的时间分布来看,GNB 和 SGD 模型的预测集中在癫痫发作事件附近,而 PAC 模型则较为分散34。
- 后处理方法的作用:简单的后处理方法能显著提高癫痫检测的准确性。研究人员测试了膨胀 - 腐蚀(Dilation - Erosion,D - E)、腐蚀 - 膨胀(Erosion - Dilation,E - D)和移动平均双阈值(Moving Average with Dual Threshold,M - DT)这三种后处理方法。结果发现,M - DT 方法对平衡准确率的提升效果最为显著,能有效减少误检率。例如,在应用 M - DT(6)方法后,GNB 和 SGD 模型能够检测到 100% 的癫痫发作,且误检率大幅降低56。
- 模型的鲁棒性和训练数据需求:GNB 模型对误分类具有很强的鲁棒性,并且只需要少量的训练数据就能达到良好的性能。研究发现,GNB 模型在仅使用 1% 的训练数据时,就能检测到 100% 的癫痫发作,且 F1 分数、平衡准确率最高,误检率最低。即使在训练数据标签大量随机打乱的情况下,GNB 模型仍能保持较高的检测准确率78。
- 特征贡献差异:不同模型中特征的贡献差异显著。DT 模型严重依赖某一个特征(如腹侧海马体的线长度,line length vHPC);GNB 和 SGD 模型的特征贡献则更为均匀。例如,通过计算特征贡献指标发现,在 DT 模型中 line length vHPC 的重要性最高,而 GNB 模型中各特征的分离分数分布更为均匀9。
- 归一化方法的影响:对 GNB 模型的研究表明,按文件进行 Z - 分数归一化(Z - score per - file normalization)在癫痫检测中表现最佳。在小鼠和人类数据集上的实验均显示,按文件归一化能提高癫痫检测率、F1 分数,降低误检率。其中,Z - 分数归一化和高斯归一化效果较好,但考虑到计算效率,SeizyML 中采用了 Z - 分数按文件归一化1011。
研究结论与讨论部分指出,SeizyML 的出现填补了科学界在癫痫发作检测领域缺乏开源可解释软件的空白。它将模型的高灵敏度与人工验证相结合,增强了研究人员对模型的信任,为癫痫发作检测自动化迈出了关键一步。在模型选择方面,虽然研究人员对比的四种线性模型各有优劣,但 GNB 模型凭借其高效性和鲁棒性被选为 SeizyML 的默认模型。此外,研究人员也认识到当前研究存在的局限性,如数据预处理步骤可能会损失一些高频信息,影响癫痫发作边界检测的精度。未来研究可探索混合策略,结合高分辨率方法来优化癫痫发作边界的检测。同时,将时间依赖特征和可解释的深度学习模型融入 SeizyML,有望进一步提升其性能和可解释性,为癫痫研究和临床诊断提供更强大的工具。
总的来说,SeizyML 的开发为癫痫发作检测带来了新的曙光,它不仅提高了检测效率和准确性,还为后续研究指明了方向,在癫痫研究和临床诊断领域具有重要的应用价值和广阔的发展前景。