利用大语言模型(LLMs)理解C语言代码:通过信息检索和推理实现高效的注释生成
《Pattern Recognition Letters》:Comprehending C codes with LLMs: Effective comment generation through retrieval and reasoning
【字体:
大
中
小
】
时间:2025年10月10日
来源:Pattern Recognition Letters 3.3
编辑推荐:
精神分裂症(SZ)的EEG分类研究提出两种互补方法:CAE-XGB和SS-ENB0。前者通过离散波let变换分解EEG信号,利用卷积自编码器提取特征后经XGBoost分类,后者结合连续小波变换的频谱scalogram与EfficientNet-B0模型,在公开数据集上分别达到95.3%和97%的准确率。研究引入Grad-CAM可视化技术解释SS-ENB0的决策机制,并采用SHAP方法解析CAE-XGB的关键电极通道,为临床提供可解释的SZ诊断方案。
在当今医学研究领域,精神疾病特别是精神分裂症(Schizophrenia, SZ)的诊断与治疗一直是一个重要课题。精神分裂症是一种复杂的心理障碍,其特征包括思维、情感和行为的紊乱,通常在16至30岁之间首次出现。它可能由细微的思维或情绪变化引发,因此,早期和准确的检测对于及时干预和治疗至关重要。然而,传统方法在精神分裂症分类方面存在诸多局限性,包括难以捕捉短暂的脑电图(EEG)特征、计算复杂度高以及缺乏可解释性。这些不足限制了临床应用的有效性,尤其是在需要快速决策和实时分析的场景中。
为了解决这些问题,本研究提出了一种创新的分类方法,通过两种互补的管道实现。第一种管道结合了卷积自编码器(Convolutional Autoencoder, CAE)与极端梯度提升(Extreme Gradient Boosting, XGB)分类器,第二种则采用了基于连续小波变换(Continuous Wavelet Transform, CWT)得到的频谱标度图(Spectral Scalograms, SS)与EfficientNet(ENB)架构。这两种方法分别针对EEG数据的不同特性进行分析,旨在提高分类的准确性和可解释性,同时降低计算成本。
卷积自编码器是一种深度学习模型,能够通过编码器提取EEG信号的稀疏表示,从而减少冗余信息。其编码后的特征可以作为输入传递给XGB分类器,用于进一步的分类任务。这种方法的优势在于能够自动学习EEG信号中的关键特征,同时保持较高的分类效率。而基于频谱标度图的方法则利用CWT对EEG信号进行分解,提取出丰富的时频信息。这些信息不仅能够揭示信号在不同时间点的频率组成,还为识别精神分裂症相关的模式提供了基础。通过将这些标度图输入到EfficientNetB0(ENB0)模型中,研究人员可以利用预训练的网络结构,实现高效的特征提取和分类。
这两种方法分别从不同的角度处理EEG数据。CAE-XGB管道侧重于通过自编码器提取信号的潜在特征,并结合XGB分类器进行决策。而SS-ENB0管道则强调通过频谱标度图保留信号的时频信息,并利用ENB0的迁移学习能力进行分类。研究结果表明,CAE-XGB方法在五折交叉验证中达到了95.3%的准确率,而SS-ENB0方法则达到了97%的准确率。这一成果不仅展示了两种方法在精神分裂症分类中的有效性,还为临床应用提供了可靠的技术支持。
在模型的可解释性方面,研究团队引入了两种不同的技术。对于ENB0模型,采用Grad-CAM(Gradient-weighted Class Activation Mapping)技术来生成热图,以可视化模型在决策过程中关注的时间-频率区域。这一技术有助于临床医生理解模型的判断依据,从而增强他们对AI诊断结果的信任。而对于CAE-XGB管道,研究团队使用SHAP(SHapley Additive exPlanations)方法来评估EEG信号中各个通道的重要性,通过排序关键的EEG通道,帮助医生识别哪些特征对分类决策影响最大。这种双重解释机制不仅提升了模型的透明度,还为精神分裂症的临床分析提供了新的视角。
研究数据来源于莫斯科国立大学(Moscow State University, MSU)的公开数据集,该数据集记录了128 Hz频率下的16通道脑电图信号,主要针对10至14岁的青少年。数据采集过程中,受试者处于清醒、放松且闭眼的状态,以确保EEG信号的完整性。该数据集包含两个主要群体:一组是45名被诊断为精神分裂症的男孩,另一组是39名健康的男孩。通过这样的数据集,研究人员能够进行多维度的分析,包括信号的时频特征、空间分布以及与其他生物标志物的关联。
在模型实现方面,研究团队使用了MATLAB 2021a进行预处理,同时借助Python 3.8和Google Colab进行机器学习和深度学习模型的开发与部署。这些工具的选择基于其在信号处理和模型训练方面的优势,能够高效地处理EEG数据并实现模型的快速迭代。此外,研究团队还公开了其源代码,以便其他研究人员能够复现实验结果或进一步优化模型。这一做法不仅促进了学术交流,也增强了研究的透明度和可验证性。
精神分裂症的分类是一个多学科交叉的课题,涉及神经科学、心理学、计算机科学等多个领域。传统方法往往依赖于专家经验或手工提取的特征,这些特征包括统计量、时频特征等,如香农熵、主频、尖峰节律等。然而,这些方法在面对复杂的、非平稳的EEG数据时,往往表现出一定的局限性。相比之下,深度学习方法能够自动学习信号中的潜在特征,提高分类的准确性。但它们也常常被视为“黑箱模型”,因为其决策过程缺乏可解释性。
为了弥补这一不足,本研究引入了两种可解释性技术:Grad-CAM和SHAP。Grad-CAM能够生成热图,显示模型在分类过程中关注的时间-频率区域,从而帮助医生理解模型的判断依据。SHAP则能够评估EEG信号中各个通道的重要性,通过排序关键的EEG通道,揭示哪些特征对分类决策贡献最大。这些技术的应用不仅提升了模型的透明度,还为精神分裂症的临床分析提供了更深入的见解。
在实际应用中,这两种方法具有显著的优势。首先,它们能够有效捕捉精神分裂症相关的时频特征,这些特征在传统方法中往往被忽略。其次,它们能够降低计算复杂度,提高分类效率,从而支持实时分析。这对于临床医生在实际诊疗中快速做出决策具有重要意义。此外,这两种方法还能够减少对大规模标注数据的依赖,这对于精神分裂症研究中的数据稀缺问题提供了有效的解决方案。
在精神分裂症的研究中,早期诊断和及时干预是改善预后的关键。然而,由于疾病的复杂性,许多患者在确诊前可能已经经历了较长时间的症状。因此,开发能够准确识别精神分裂症特征的分类方法,对于提高早期诊断率和改善患者生活质量具有重要意义。本研究提出的两种方法,不仅在分类准确率上表现出色,还通过引入可解释性技术,提升了模型的临床适用性。
此外,精神分裂症的诊断通常基于DSM-5-TR标准,要求至少满足两个症状,如幻觉、妄想、思维混乱等,并且这些症状需要持续一个月以上,同时整体功能障碍至少持续六个月。这一标准虽然有助于疾病的诊断,但在实际应用中,仍存在一定的挑战。因此,结合先进的机器学习方法和可解释性技术,能够为临床医生提供更准确、更透明的诊断依据。
在技术实现方面,本研究还探讨了如何通过信号分解提高EEG数据的分析效率。例如,使用离散小波变换(Discrete Wavelet Transform, DWT)对EEG信号进行分解,可以将其转换为多个子频带,从而减少数据冗余,提高分析效率。这些子频带可以作为输入传递给CAE,实现稀疏表示,从而降低计算成本。同时,通过CWT生成的频谱标度图能够保留丰富的时频信息,为ENB0模型提供更全面的输入。
综上所述,本研究提出的两种互补的分类方法,不仅在分类准确率上表现出色,还通过引入可解释性技术,提升了模型的临床适用性。这些方法的应用,为精神分裂症的早期诊断和治疗提供了新的技术支持,同时也为未来的临床研究和人工智能应用提供了重要的参考价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号