《Nature Communications》:Deriving three one dimensional NMR spectra from a single experiment through machine learning
编辑推荐:
为破解高通量代谢组学中多谱图采集耗时费资源的瓶颈,研究团队训练快速偏最小二乘(PLS)回归模型,仅输入1D NOESY即可精准预测CPMG、Diffusion-edited及pJRES谱。独立测试集验证显示R最高达0.998,AUC维持0.78–0.79,实现“一谱代三谱”的快速分析新范式。
在代谢组学实验室里,科研人员常把核磁共振(NMR)比作“液体活检的听诊器”:无需破坏样本,就能同时捕捉小分子代谢物、脂蛋白和蛋白质的“合奏”。然而,这场“交响乐”若想听清每个声部,需要连续演奏多段乐章——NOESY、CPMG、扩散编辑、J-resolved,每一段都占用宝贵的磁体时间。面对动辄数千例样本的高通量队列,扫描时长、匀场稳定、耗材与人力成本像四座大山,压在研究者心头。更棘手的是,不同实验揭示的化学信息互补:NOESY“一网打尽”,却峰峦重叠;CPMG屏蔽大分子,却可能残留“背景鼓点”;扩散编辑突出脂质“低音”,却牺牲小代谢物“高音”;J-resolved把重叠峰拆成“双声道”,却需要二维采集与漫长的投影计算。能否只采一条自由感应衰减(FID),就让算法自动“分轨”输出其余三条谱图?带着这一疑问,Alessia Vignoli、Stefano Cacciatore与Leonardo Tenori团队设计了名为“一谱三用”的机器学习框架,成果发表于《Nature Communications》。
作者整合来自18个招募中心、涵盖重度肥胖(MTBLS242)、急性心肌梗死(MTBLS395)及乳腺癌(MTBLS424)的1842份血清样本,建立训练-验证-独立测试三级队列。核心思路是用快速偏最小二乘(fast PLS)回归,将0.001 ppm桶化后的1D NOESY谱(X矩阵,13000变量)直接映射至CPMG、扩散编辑及pJRES谱(Y矩阵,85065、28355、12780数据点)。为克服大矩阵运算瓶颈,采用奇异值分解-隐式重启Lanczos双对角化(IRLBA)单次求解,250、165、180个成分即完成训练,耗时仅百秒级。预测后的谱图以Bruker格式输出,可直接导入TopSpin、Mnova、Chenomx等主流代谢组学软件。研究还遵循多中心标准化建议:统一采用600 MHz低温探头、310 K恒温、δ 5.24 ppm葡萄糖双峰校准,并剔除水峰、污染物等低质量文件,最终保留1753份高质量谱图。
研究结果分三部分呈现。其一,“计算管线可行性”显示:在独立测试集(n=232)中,CPMG、扩散编辑及pJRES的预测中位相对误差(MRE%)分别为5.97、3.80、12.6,R依次为0.995、0.998、0.968,性能偏差比(RPD)均高于5,表明模型稳健。其二,“代谢物定量准确性”通过人工积分20种代表性代谢物信号验证:15种相关系数r>0.90,仅低强度甲酸(formate)降至0.51,整体证明预测谱可用于半定量。其三,“临床指纹一致性”以急性心肌梗死两年死亡风险为场景,用随机森林(RF)分别基于原始与预测谱构建分类器。CPMG谱AUC由0.79微降至0.78,扩散编辑谱AUC由0.76升至0.78,差异无统计学意义,提示预测谱保留完整生物判别信息。
结论与讨论指出,该方法并非追求“替代”所有多维实验,而是为资源受限或超大样本场景提供“加速跑道”。其意义体现在:第一,将传统需四次独立采样的流程压缩为一次,显著节省机时与样本量;第二,PLS回归规避深度网络“黑箱”与模拟数据偏差,以真实血清光谱训练,增强跨中心泛化;第三,R脚本全流程开源,支持用户以本地队列重训练,有望拓展至纯位移(pure-shift)、扩散-弛豫编辑(DIRE)乃至二维谱预测。作者亦提醒,模型对扫描次数、缓冲液配方及强耦合伪影仍敏感,未来需结合最新代谢组学标准操作程序(SOP)与更大规模公开库进行基准测试。总的来看,这项研究用极简算法撬动了NMR高通量分析的杠杆,为“一次采血、多重信息”的精准医学范式提供了可落地的技术路径。