编辑推荐:
研究人员为解决睡眠脑电图(EEG)跨数据集分类时因数据变异性大、数据稀缺导致模型泛化性差的问题,开展了利用 Transfer Euclidean Alignment(TEA)技术的研究。结果表明 TEA 能提升模型性能,对生物医学信号处理意义重大。
在生物医学研究领域,睡眠脑电图(EEG)分析在临床应用中具有独特优势,能实时监测大脑电活动。然而,它也面临诸多挑战。EEG 信号具有非平稳特性,信号中夹杂着各种噪声,而且不同个体和不同时间段采集的数据差异很大。这就导致在利用机器学习(ML)和深度学习(DL)模型进行实际分类任务时,模型的表现很不稳定。比如,一个在某个数据集上表现出色的模型,换个数据集可能就 “失灵” 了。此外,高质量的生物医学数据十分稀缺,这使得评估模型的泛化能力变得困难重重。为了突破这些困境,研究人员开启了探索之旅。
国外研究人员开展了一项旨在利用 Transfer Euclidean Alignment(TEA)技术减少创伤性脑损伤(TBI)患者和小鼠睡眠 EEG 数据集中的协变量转移的研究。他们通过一系列实验,得出结论:TEA 技术能够有效提升 ML 和 DL 模型在不同数据集上的分类性能,这对于生物医学信号处理领域有着重要意义,相关研究成果发表在《Biomedical Signal Processing and Control》。
研究人员采用了多种关键技术方法。在数据收集方面,使用了两个小鼠数据集(Dataset 1D1和 Dataset 2D2)和一个人类数据集。对 EEG 信号进行预处理时,运用独立成分分析(ICA)去除眼动和心电图成分,通过主成分分析(PCA)进行数据白化等操作。还使用了规则 - 基于经典 ML 方法,包括特征提取、特征对齐,以及 EEGNet - 基于 DL 方法,对数据进行处理和分析。
研究结果分为两个部分:
- 种内协变量转移减少:在仅使用小鼠数据的实验中,研究人员将小鼠数据集D1和D2分别作为目标和源数据集。模型先在D2上训练,再用D1进行微调后测试。结果显示,几乎所有 ML 模型在经过 TEA 对齐后,准确率都有所提高,尤其是像 kNN 和 SVM 这类依赖距离度量的算法。EEGNet - 基于的 DL 模型在某些情况下准确率提升明显,平均提高了 40%,但也有个别情况出现准确率下降,可能与数据中的不良试验或异常值有关。从特征空间来看,TEA 使源数据集的数据点与目标数据集在同一欧氏空间对齐,有助于模型更好地分类。
- 种间协变量转移减少:在使用小鼠和人类数据的实验中,研究人员对比了三种情况:仅用人类数据集训练和测试模型;用小鼠数据集预训练,再用人类训练数据集微调;用经过 TEA 处理的小鼠和人类数据集,即预训练用对齐的小鼠数据,微调用对齐的人类训练数据。结果发现,对于所有基于规则的经典模型,引入小鼠数据预训练后,准确率都有所提高,使用 TEA 处理后的数据集进一步提升了准确率。但 EEGNet - 基于的 DL 模型在未使用 TEA 处理的数据集时准确率下降,使用 TEA 后性能有所提升。此外,在 REM 阶段模型表现优于 Wake 阶段,可能与人类数据集中 REM 阶段数据量相对较多有关。从特征空间上看,使用 TEA 后,小鼠和人类数据集在欧氏空间中对齐,有利于知识从小鼠数据集转移到人类分类任务中。同时,研究还发现,用 TEA 小鼠数据预训练的模型,在训练时使用较少的人类受试者就能达到较高准确率。
研究结论和讨论部分指出,该研究首次展示了在欧氏空间中使用转移学习,借助小鼠模型数据提升人类数据集模型性能的可行性。TEA 技术有效减少了不同数据集之间的协变量转移,显著提高了模型在不同睡眠阶段的分类准确率。这不仅对 EEG 异常检测有重要意义,还为生物医学信号处理中涉及不同物种和个体数据的其他应用开辟了新途径,有助于提高预测模型在现实场景中的稳健性和可靠性,为相关领域的研究和实践提供了重要的参考和借鉴。