
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于认知链提示的多模态隐喻识别方法研究及其在大型语言模型中的应用
【字体: 大 中 小 】 时间:2025年05月06日 来源:Cognitive Systems Research 2.1
编辑推荐:
针对多模态隐喻识别中认知机制利用不足的问题,研究人员提出基于认知链提示(CoC)的新方法,通过引导大型语言模型(LLM)推理源域-目标域关联,结合图像描述与视觉编码实现跨模态融合。实验表明该方法优于现有基线模型,为隐喻计算领域提供了兼具认知解释性与性能提升的创新方案。
隐喻作为人类语言中普遍存在的思维认知方式,其计算化研究正面临从单模态向多模态拓展的关键转型。传统文本隐喻识别虽已取得进展,但社交媒体时代的海量图文数据暴露出现有方法的局限性:一方面,简单融合文本与图像特征的多模态方法忽视了隐喻本质的认知机制;另一方面,大型语言模型(LLM)的预训练知识未被有效利用。这种割裂导致现有系统难以捕捉如"筷子构成树根象征资源保护"等跨模态隐喻的深层语义关联。
为解决这一挑战,来自国家社会科学基金资助项目的研究团队在《Cognitive Systems Research》发表创新性成果,提出基于认知链提示(Chain-of-Cognition Prompting, CoC)的多模态隐喻识别框架。该方法突破性地将人类理解隐喻的认知过程——包括源域(source domain)与目标域(target domain)的映射关系识别——转化为可计算的提示链,通过LLM的推理能力实现隐喻要素的自动化提取与关联分析。研究同时整合图像描述生成与视觉编码技术,构建起兼顾语义抽象与视觉细节的双通道表征体系。
关键技术方法包括:1)基于认知步骤设计的链式提示模板,引导LLM分步识别实体及关联关系;2)BLIP等模型生成的图像描述与CLIP视觉编码器的特征联合表示;3)跨模态特征融合架构。实验采用两个公开多模态隐喻数据集验证,涵盖"香烟-肺部损伤"等典型隐喻样本。
Multimodal metaphor recognition
研究证实传统单模态方法在图文隐喻场景下准确率下降显著。如仅依赖文本模态时,"节约资源"相关隐喻识别率不足40%,而引入图像模态后性能提升达25%,凸显多模态融合的必要性。
Method
CoC框架通过三级提示链实现认知模拟:首阶段提示识别潜在源域(如"筷子")与目标域(如"树木");次阶段分析域间映射合理性(如"形状相似性");最终阶段结合视觉特征(如物体空间布局)完成隐喻判定。该设计使模型F1值较传统融合方法提高12.3%。
Experiments
在包含3,200组图文样本的测试集上,CoC方法取得82.7%的准确率,显著优于基于BERT+ResNet的基线模型(71.2%)。消融实验显示,认知链提示贡献最大性能增益(+8.5%),而图像描述与视觉编码的互补性使召回率提升4.2%。
Conclusion
该研究开创性地将认知科学理论与大模型提示工程相结合,为多模态隐喻计算提供新范式。其重要意义体现在三方面:1)首次实现隐喻认知过程的可计算化分解;2)验证LLM在隐式关联推理中的独特优势;3)建立跨模态特征协同新标准。未来可扩展至视频隐喻、文化差异分析等领域,为认知驱动的多模态理解奠定基础。作者团队特别指出,该方法中"认知链"的设计原则可迁移至其他需要渐进式推理的AI任务,具有普适方法论价值。
生物通微信公众号
知名企业招聘