
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向印度语言的语音查询跨语言信息检索系统SqCLIRIL:融合生成式AI的低资源多语言检索新范式
【字体: 大 中 小 】 时间:2025年09月06日 来源:Pattern Recognition Letters 3.3
编辑推荐:
【编辑推荐】本研究构建了印度五语种(印地语/古吉拉特语/孟加拉语/卡纳达语/英语)的语音查询跨语言检索基准SqCLIRIL,创新性地将稀疏检索(BM25)、稠密检索(Bi-Encoder)与生成式AI驱动的LLM点向融合策略(LPF)相结合,在TREC DL'19/20数据集上验证了语音模态下多语言检索的可行性,为低资源地区的包容性信息获取提供了技术框架。
Highlight
语言覆盖与模态
本研究涵盖印度五大语言:印地语(Hindi)、古吉拉特语(Gujarati)、孟加拉语(Bengali)、卡纳达语(Kannada)和英语,横跨印度-雅利安语系(占比44%/8%/4.5%)和达罗毗荼语系(3.6%)。通过采集男女声语音样本,构建了包含文本查询、语音原始波形及自动语音识别(ASR)转写文本的多模态检索数据库。
Methodology
我们开发了三级检索架构:(1)基于词袋模型的稀疏检索器BM25;(2)采用双编码器(Bi-Encoder)的稠密语义检索模块;(3)创新性的大语言模型点向融合器(LLM-based Pointwise Fusion, LPF),该模块通过生成式语义对齐技术,将传统检索模型与GPT-3.5的语义理解能力动态结合。
Experimental setup
实验设置包含单语种和跨语种两种场景。语音查询通过Whisper模型转写后输入系统,文档库采用人工翻译的TREC DL'19/20语料。特别设计了声学干扰测试集,模拟真实环境中的背景噪声和口音变异。
Experimental results and analytical insights
LPF方法在nDCG@10指标上全面领先:跨语种检索中较传统BM25提升38.2%,较纯稠密检索提升12.7%。值得注意的是,女性语音查询在孟加拉语场景下表现最优(+5.3%),而男性语音在卡纳达语检索中更具优势,揭示了声学特征与语言音系的复杂关联。
Conclusion
本研究证实生成式AI能有效弥补低资源语言的语义鸿沟,LPF框架的适应性权重机制为多模态检索提供了新思路。未来工作将扩展至泰米尔语等更小众语种,并探索端到端的语音-文档跨模态嵌入技术。
生物通微信公众号
知名企业招聘