用于时间序列问答(Temporal QA)的程序可验证评估:证据有效性的度量标准

《IEEE Access》:Program-Verifiable Evaluation for Temporal QA: Metrics for Evidence Validity

【字体: 时间:2026年04月02日 来源:IEEE Access 3.6

编辑推荐:

  摘要:时间敏感的问答(QA)要求引用的证据在查询时具有时间有效性。然而,现有的评估主要关注答案的正确性,而忽视了证据的时效性。我们提出了一个可程序验证的评估框架,该框架明确地将答案的正确性与时间有效性分开。我们的“oracle-answer”诊断工具可以修正答案(准确率Acc=1

  

摘要:

时间敏感的问答(QA)要求引用的证据在查询时具有时间有效性。然而,现有的评估主要关注答案的正确性,而忽视了证据的时效性。我们提出了一个可程序验证的评估框架,该框架明确地将答案的正确性与时间有效性分开。我们的“oracle-answer”诊断工具可以修正答案(准确率Acc=1.0),同时测量证据的有效性,结果显示即使完美的答案也有11.8%的情况下引用了过时的文档(时间无效率TMR=0.118),在基于距离的衰减模型下,平均准确率RAS为0.903。我们引入了时间一致性指标(RAS、RAR、TMR),并在TimeFact-CEO(合成数据集,N=4,793)和Wikidata-CEO(半结构化数据集,N=1,493)上进行了评估。一个轻量级的词汇-时间重排序算法将时间有效性率(RAR)从48.2%提高到了88.2%(提高了40.0个百分点)。错误分析表明,检索覆盖率(K=3时为76.3%)是主要的瓶颈。我们在一个CEO任期设置中展示了该框架,其中有效性区间是明确且可唯一验证的。当其他领域具有可比较的区间元数据时,将该框架应用于这些领域是可行的,我们计划在未来的工作中处理跨领域验证问题。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号