《Briefings in Bioinformatics》:CELLetter: leveraging large language model and dual-stream network to identify context-specific ligand–receptor interactions for cell–cell communication analysis
编辑推荐:
本研究针对现有细胞通讯分析方法依赖静态数据库、忽略下游信号传导的局限,开发了深度学习框架CELLetter。该框架通过蛋白质大语言模型ProstT5进行特征嵌入,结合双流架构与混合专家机制提取特征,创新性地整合转录因子活性量化通讯强度。在头颈鳞癌肿瘤微环境分析中成功识别MIF-CD44等关键信号轴,为靶向治疗提供新思路。
在多细胞生物体中,细胞间通讯(Cell-Cell Communication, CCC)通过复杂的信号网络协调着各类细胞行为,如同一场精密的分子对话。然而,现有计算方法大多局限于静态的配体-受体(Ligand-Receptor, L-R)数据库,既无法有效识别新型相互作用,也难以捕捉从膜表面到细胞核的完整信号传导过程。这种"只见树木不见森林"的分析方式,特别是在肿瘤微环境(Tumor Microenvironment, TME)等复杂系统中,严重限制了对细胞间对话机制的深入理解。
针对这一挑战,湖南工业大学等单位的研究团队在《Briefings in Bioinformatics》上发表了创新性研究成果,提出了名为CELLetter的深度学习框架。该研究突破了传统方法的局限,通过融合蛋白质大语言模型和双流神经网络,实现了对细胞通讯中配体-受体相互作用的精准预测与深入解析。
研究方法上,团队整合了多组学数据与计算生物学技术。他们从公共数据库获取了4个人类和小鼠的L-R数据集用于模型训练,并收集了头颈鳞状细胞癌(HNSCC)的单细胞RNA测序(scRNA-seq)数据(GEO编号:GSE103322)以及人类心脏和远端肺上皮组织的空间转录组数据(STOmicsDB编号:STDS0000025和STDS0000114)进行验证。技术核心包括:基于ProstT5的蛋白质序列特征嵌入、双流特征处理架构(MLP残差连接与MoE-CNN模块)、门控融合机制以及特征交互操作,最后通过整合转录因子活性(使用pySCENIC计算)来量化细胞通讯强度。
相互作用配体-受体预测
研究团队设计了一套完整的L-R相互作用预测流程。首先利用蛋白质大语言模型ProstT5提取每个蛋白质的序列级全局特征和残基级局部特征。随后通过双流架构并行处理:全局特征经由带残差连接的多层感知机(MLP)进行降维,局部特征则通过混合专家(Mixture of Experts, MoE)模块中的多尺度卷积网络进行聚合。门控融合机制动态权衡两类特征的贡献度,生成上下文感知的蛋白质表示。最后通过绝对差值和元素乘积操作显式建模L-R间交互特征,输入MLP分类器计算相互作用概率。该方法在四个数据集上均显著优于CellDialog、CellGDnG等现有模型,AUC最高达0.9281。
消融分析
通过系统性消融实验验证了各模块的贡献。移除MoE模块导致精度下降0.2%-8.0%,取消门控融合造成性能最大跌幅(精度降低0.6%-4.5%),而去除特征交互操作(差值和乘积)则使模型难以学习互补模式。完整模型在所有评估指标上均表现最优,证实了其架构设计的合理性。
配体-受体验证
与SingleCellSignalR、CellPhoneDB等6种主流数据库的对比显示,CELLetter在Dataset 1上预测的相互作用中有35.04%得到现有知识支持。空间转录组分析进一步证实了预测结果的生物学合理性:在人类心脏和肺组织数据中,CELLetter预测的L-R对表现出更近的空间共定位距离(心脏1283.71μm,肺195.81μm)、更高的共表达比例和共检测概率,凸显其预测的可靠性。
细胞间通讯分析
应用CELLetter分析HNSCC肿瘤微环境,发现巨噬细胞、成纤维细胞和内皮细胞是与癌细胞的三大主要通讯伙伴。这与多数基准方法的结论一致,且符合肿瘤生物学认知:肿瘤相关巨噬细胞(TAMs)促进免疫抑制,癌症相关成纤维细胞(CAFs)驱动肿瘤发展,内皮细胞分泌因子诱导癌细胞抗失巢凋亡。
前三配体-受体对分析
深度解析发现MIF-CD74、MIF-CXCR4和MIF-CD44等信号轴在HNSCC通讯中起核心作用。分子对接实验显示前20对预测相互作用的结合能均低于-6 kcal/mol,结合面积显著,提示强相互作用。网络中心性分析进一步识别MIF为最大传出信号枢纽,CD44为最大传入信号枢纽,二者构成HNSCC通讯网络的骨干。
研究结论强调,CELLetter通过创新性地融合蛋白质大语言模型与深度学习架构,实现了对细胞通讯中配体-受体相互作用的精准预测。其双流特征处理、动态门控融合和显式特征交互机制显著提升了模型性能,而整合转录因子活性的通讯评分策略则提供了更全面的细胞对话视角。在HNSCC中的应用不仅验证了方法的有效性,更揭示MIF-CD44信号轴作为潜在治疗靶标的重要价值。尽管当前未整合空间变异建模,但为未来多组学数据融合分析指明了方向。该框架为解析复杂生物系统中的细胞间对话提供了强大工具,对靶向治疗和药物设计具有重要启示意义。