用于时间序列问答(Temporal QA)的程序可验证评估:证据有效性的度量标准
《IEEE Access》:Program-Verifiable Evaluation for Temporal QA: Metrics for Evidence Validity
【字体:
大
中
小
】
时间:2026年04月02日
来源:IEEE Access 3.6
编辑推荐:
摘要:时间敏感的问答(QA)要求引用的证据在查询时具有时间有效性。然而,现有的评估主要关注答案的正确性,而忽视了证据的时效性。我们提出了一个可程序验证的评估框架,该框架明确地将答案的正确性与时间有效性分开。我们的“oracle-answer”诊断工具可以修正答案(准确率Acc=1
摘要:
时间敏感的问答(QA)要求引用的证据在查询时具有时间有效性。然而,现有的评估主要关注答案的正确性,而忽视了证据的时效性。我们提出了一个可程序验证的评估框架,该框架明确地将答案的正确性与时间有效性分开。我们的“oracle-answer”诊断工具可以修正答案(准确率Acc=1.0),同时测量证据的有效性,结果显示即使完美的答案也有11.8%的情况下引用了过时的文档(时间无效率TMR=0.118),在基于距离的衰减模型下,平均准确率RAS为0.903。我们引入了时间一致性指标(RAS、RAR、TMR),并在TimeFact-CEO(合成数据集,N=4,793)和Wikidata-CEO(半结构化数据集,N=1,493)上进行了评估。一个轻量级的词汇-时间重排序算法将时间有效性率(RAR)从48.2%提高到了88.2%(提高了40.0个百分点)。错误分析表明,检索覆盖率(K=3时为76.3%)是主要的瓶颈。我们在一个CEO任期设置中展示了该框架,其中有效性区间是明确且可唯一验证的。当其他领域具有可比较的区间元数据时,将该框架应用于这些领域是可行的,我们计划在未来的工作中处理跨领域验证问题。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号