基于深度学习的听觉中枢精准建模:ICNet实现下丘神经编码的高分辨率模拟
《Nature Machine Intelligence》:Modelling neural coding in the auditory midbrain with high resolution and accuracy
【字体:
大
中
小
】
时间:2025年09月19日
来源:Nature Machine Intelligence 23.9
编辑推荐:
本研究针对听觉脑区模型精度不足的问题,开发了基于编码器-解码器架构的ICNet模型。通过大规模下丘神经记录,解决了神经响应统计结构捕获、非平稳性校正和跨个体共享特征提取三大挑战。该模型对复杂声音(包括语音)的神经响应模拟准确率超过90%,并能复现前向掩蔽、动态范围适应等关键神经现象,为听觉研究和助听技术提供了高精度计算基础。
在听觉研究领域, cochlea(耳蜗)的计算机模型已经达到高度精确的水平,但针对听觉脑区的模型却远远落后。这就像我们能够精细地绘制出声音进入耳朵的路径,却对大脑如何解读这些声音知之甚少。这种滞后严重限制了听觉机制的基础研究和助听器等技术的开发。特别是在下丘(inferior colliculus, IC)——听觉通路的关键中脑枢纽,科学家们缺乏一个能够高精度模拟其神经活动、并能广泛应用于不同场景的计算模型。
传统的模型往往受限于简化假设(如泊松分布),无法捕捉神经活动的真实复杂性;长时间的神经记录中不可避免的非平稳性(如电极漂移或生理状态变化)也常常被忽略;而且,模型通常针对特定个体训练,难以提取跨大脑的通用听觉处理特征。为了解决这些根本性挑战,来自伦敦大学学院(University College London)等机构的研究团队在《Nature Machine Intelligence》上发表了他们的最新成果——ICNet。
研究人员开发ICNet的核心技术方法主要包括:首先,利用定制设计的512通道电极阵列,在麻醉状态的沙鼠(gerbil)下丘进行大规模颅内记录,提取多单元活动(multi-unit activity, MUA)作为模型训练和评估的基础数据。其次,构建了一个多分支的卷积编码器-解码器深度学习框架。该框架的核心是一个共享的编码器(shared encoder),负责将声音波形映射到一个通用的潜在表征(latent representation);然后为每只动物配备独立的解码器(decoder),将通用表征转换为该动物特定的神经活动。为了解决记录非平稳性问题,模型还引入了一个时间戳输入(time stamp input),使解码器能够根据记录时间点调制其输出。最后,采用交叉熵损失函数(cross-entropy loss)来精确模拟MUA计数的完整分布,而不是像传统泊松回归那样对响应变异性做出简单假设。
DNNs can capture the statistics of neural response patterns
研究人员首先证明了深度神经网络(DNN)能够精确捕捉神经响应模式的统计特性。传统的泊松模型虽然能较好地预测平均活动,但严重高估了试验间的变异性(Fano因子误差中位数为0.38)。而采用交叉熵损失和分类分布的DNN模型则能准确预测MUA计数的完整分布,将Fano因子的预测误差显著降低至0.07,并且在均方根误差(RMSE)和对数似然度上均表现出显著优势(分别提升约16%和8%)。这表明,放弃简单的分布假设,直接对神经活动的完整统计结构进行建模,是提高模型精度的关键一步。
DNNs can account for non-stationarity in neural recordings
长时间记录带来的非平稳性是另一个主要挑战。研究表明,同一声音在不同记录时间点可引发差异显著的神经响应。标准的编码器-解码器模型只能学习一个时间不变的“平均”映射。ICNet通过引入时间变量输入,使模型能够根据记录时间动态调整其声音编码。对于非平稳性显著的记录,时间变量模型能将解释方差的比例稳定在90%左右,而时间不变模型的性能则波动较大且整体较差。模型性能的提升程度与非平稳性的测量值呈正相关,在最不稳定的记录中,RMSE和对数似然度的改善分别接近10%和15%,而对于稳定记录则无明显影响,证明了该方法的有效性和灵活性。
Multi-branch DNNs can capture shared latent dynamics across animals
研究的目标是构建一个通用的IC模型,而非针对特定个体。ICNet采用多分支架构,包含一个共享编码器和多个动物特定的解码器。交叉验证实验表明,使用在8只动物上训练得到的冻结编码器(frozen encoder)来预测第9只被排除在外的动物的神经活动,其性能与将所有9只动物都用于训练的原始ICNet模型相当。这表明ICNet学习到的是跨正常听力个体的通用听觉编码动力学。此外,对于未参与训练的新动物,仅需3分钟的神经数据来训练新的解码器,ICNet就能达到与在该动物全数据集上训练的单分支模型相似的性能。反向交叉验证(冻结单分支模型编码器并预测其他动物)则显示ICNet性能更优,进一步证实了多分支架构在提取共享特征方面的优势。ICNet的潜在动力学本身可作为一种紧凑的听觉处理表征,将其用作自动语音识别(ASR)系统的前端,其性能与梅尔谱图(Mel spectrogram)前端相当,甚至在高信噪比下略有优势。
ICNet is a highly accurate model of neural coding
ICNet的整体性能评估显示其具有极高的预测准确性。对于训练集中未出现的多种复杂声音(安静环境下的语音、噪声中的语音、音乐、移动波纹声),ICNet能够解释大部分可解释的方差和相关性。特别是在安静语音上,模型解释了超过90%的可解释方差(91.5%)和相关性(92.9%)。即使在个体单元水平上,其性能也远优于标准的线性-非线性泊松(linear-nonlinear Poisson, LNP)模型。模型性能与神经响应的可靠性(reliability,即连续试验间的相关性)呈强正相关(相关系数0.54),表明其对响应更可靠的单元预测更准确。ICNet的预测误差大多是非系统性的,仅在窄带声音的高强度条件下,对低特征频率(characteristic frequency, CF)单元响应高于其CF的声音存在轻微的高估趋势。
ICNet captures fundamental neurophysiological phenomena
除了对复杂声音的高精度模拟,ICNet还能复现下丘神经元的关键神经生理现象。研究人员使用专门的测试声音集评估了ICNet在未参与训练的新动物上的表现。结果显示,ICNet能够准确预测神经元对纯音的频率响应区域(frequency response area, FRA)以及其时域动态(虽然MUA水平上无法完全反映单单元水平的复杂动态,如暂停或 buildup 模式)。ICNet还成功捕获了振幅调制(amplitude modulation)调谐特性、动态范围适应(dynamic range adaptation)以及前向掩蔽(forward masking)等现象。重要的是,这些现象在ICNet的瓶颈层(bottleneck)潜在表征中也有清晰的体现,通过主成分分析(PCA)可以观察到构成这些响应特性的基本组件。然而,对于上下文增强(context enhancement)现象,在记录的MUA中观察到的证据较弱,这可能是由于该现象在单单元水平更为明显。
综上所述,ICNet研究通过巧妙结合大规模神经记录和深度学习技术,成功构建了一个高精度、高分辨率、能泛化于不同个体和声音的听觉中枢基线模型。该模型不仅解决了听觉脑区模型长期面临的三大挑战——精确统计建模、非平稳性校正和共享特征提取——而且其性能达到了前所未有的水平。ICNet的意义远不止于提供一个强大的模拟工具。作为一个“基础核心(foundation core)”,它可以为包含行为调制或更高级听觉处理的模型提供基线神经表征,从而显著减少开发高级模型所需的数据量。在科学研究上,ICNet使得研究者能够摆脱数据限制,并可能减少确认性动物实验的数量。在技术应用上,它为助听器、语音识别等技术的优化提供了基于生理约束的参考目标,有望解锁超越传统声学优化方法的感知收益。尽管ICNet基于麻醉动物数据开发,且主要模拟MUA而非单单元活动,但其框架的通用性为未来模拟清醒状态听觉处理、双耳听觉(binaural hearing)等更复杂功能奠定了坚实基础。这项研究标志着计算听觉模型发展到了一个的新阶段,为理解和模仿大脑听觉处理开辟了新的道路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号