揭示查询性能预测的局限性:失败案例、洞察及其对选择性查询处理的影响
《ACM Transactions on Information Systems》:Uncovering the Limitations of Query Performance Prediction: Failures, Insights, and Implications for Selective Query Processing
【字体:
大
中
小
】
时间:2025年11月21日
来源:ACM Transactions on Information Systems
编辑推荐:
本文首次对查询性能预测(QPP)的鲁棒性及跨范式泛化能力进行系统性评估,涵盖BM25、DFree、SPLADE、ColBERT等多样检索架构,实验表明QPP存在显著的泛化缺陷,严重制约其实际应用价值。
摘要
查询性能预测(Query Performance Prediction, QPP)用于评估检索系统对给定查询的有效性,为搜索效果和查询处理提供了宝贵的见解。尽管已有大量研究,但在理解QPP在不同检索范式和数据集上的泛化能力方面仍存在关键差距,这一关于鲁棒性的问题对其实际应用具有重要意义。本文首次全面评估了QPP的鲁棒性和泛化能力,研究了包括NQC、WIG、基于LETOR的特征以及新开发的基于密集数据的预测器MQPPF和BERT-QPP在内的先进QPP方法。我们系统地评估了这些方法在四种基准数据集(TREC Robust、GOV2、WT10G和MS-MARCO)上的性能,这些数据集包含稀疏(BM25、DFree,含/不含查询扩展)、混合(SPLADE)和密集(ColBERT、TCT-ColBERT)排序器。研究结果揭示了几个基本的鲁棒性挑战:预测器的准确率存在显著差异,其中数据集是主要影响因素,其次是排序器类型。某些稀疏预测器在特定数据集(如TREC Robust和GOV2)上表现良好,但在其他数据集(如WT10G和MS-MARCO)上却无法泛化。基于密集数据的预测器在某些与密集排序器结合的场景中表现出潜力,但在稀疏环境中同样缺乏泛化能力。我们证明,这些泛化失败严重限制了QPP的实际应用效果:基于QPP的选择性查询处理仅带来了微小的提升(约4%的NDCG提升),且其可靠性在不同环境中差异很大。我们的发现表明,当前的QPP方法缺乏在实际应用中所需的鲁棒性,并强调了迫切需要能够跨不同数据集可靠泛化的预测器,这些预测器应与现代密集检索架构相匹配,并为下游应用提供一致的性能。我们公开发布了数据和代码,以促进未来关于鲁棒QPP方法的研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号