面向印度语言的语音查询跨语言信息检索系统SqCLIRIL:融合生成式AI的低资源多语言检索新范式

【字体: 时间:2025年09月06日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  【编辑推荐】本研究构建了印度五语种(印地语/古吉拉特语/孟加拉语/卡纳达语/英语)的语音查询跨语言检索基准SqCLIRIL,创新性地将稀疏检索(BM25)、稠密检索(Bi-Encoder)与生成式AI驱动的LLM点向融合策略(LPF)相结合,在TREC DL'19/20数据集上验证了语音模态下多语言检索的可行性,为低资源地区的包容性信息获取提供了技术框架。

  

Highlight

语言覆盖与模态

本研究涵盖印度五大语言:印地语(Hindi)、古吉拉特语(Gujarati)、孟加拉语(Bengali)、卡纳达语(Kannada)和英语,横跨印度-雅利安语系(占比44%/8%/4.5%)和达罗毗荼语系(3.6%)。通过采集男女声语音样本,构建了包含文本查询、语音原始波形及自动语音识别(ASR)转写文本的多模态检索数据库。

Methodology

我们开发了三级检索架构:(1)基于词袋模型的稀疏检索器BM25;(2)采用双编码器(Bi-Encoder)的稠密语义检索模块;(3)创新性的大语言模型点向融合器(LLM-based Pointwise Fusion, LPF),该模块通过生成式语义对齐技术,将传统检索模型与GPT-3.5的语义理解能力动态结合。

Experimental setup

实验设置包含单语种和跨语种两种场景。语音查询通过Whisper模型转写后输入系统,文档库采用人工翻译的TREC DL'19/20语料。特别设计了声学干扰测试集,模拟真实环境中的背景噪声和口音变异。

Experimental results and analytical insights

LPF方法在nDCG@10指标上全面领先:跨语种检索中较传统BM25提升38.2%,较纯稠密检索提升12.7%。值得注意的是,女性语音查询在孟加拉语场景下表现最优(+5.3%),而男性语音在卡纳达语检索中更具优势,揭示了声学特征与语言音系的复杂关联。

Conclusion

本研究证实生成式AI能有效弥补低资源语言的语义鸿沟,LPF框架的适应性权重机制为多模态检索提供了新思路。未来工作将扩展至泰米尔语等更小众语种,并探索端到端的语音-文档跨模态嵌入技术。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号