用于时间序列问答（Temporal QA）的程序可验证评估：证据有效性的度量标准

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Program-Verifiable Evaluation for Temporal QA: Metrics for Evidence Validity

【字体：大中小】 时间：2026年04月02日 来源：IEEE Access 3.6

编辑推荐：

　　摘要：时间敏感的问答（QA）要求引用的证据在查询时具有时间有效性。然而，现有的评估主要关注答案的正确性，而忽视了证据的时效性。我们提出了一个可程序验证的评估框架，该框架明确地将答案的正确性与时间有效性分开。我们的“oracle-answer”诊断工具可以修正答案（准确率Acc=1

摘要：

时间敏感的问答（QA）要求引用的证据在查询时具有时间有效性。然而，现有的评估主要关注答案的正确性，而忽视了证据的时效性。我们提出了一个可程序验证的评估框架，该框架明确地将答案的正确性与时间有效性分开。我们的“oracle-answer”诊断工具可以修正答案（准确率Acc=1.0），同时测量证据的有效性，结果显示即使完美的答案也有11.8%的情况下引用了过时的文档（时间无效率TMR=0.118），在基于距离的衰减模型下，平均准确率RAS为0.903。我们引入了时间一致性指标（RAS、RAR、TMR），并在TimeFact-CEO（合成数据集，N=4,793）和Wikidata-CEO（半结构化数据集，N=1,493）上进行了评估。一个轻量级的词汇-时间重排序算法将时间有效性率（RAR）从48.2%提高到了88.2%（提高了40.0个百分点）。错误分析表明，检索覆盖率（K=3时为76.3%）是主要的瓶颈。我们在一个CEO任期设置中展示了该框架，其中有效性区间是明确且可唯一验证的。当其他领域具有可比较的区间元数据时，将该框架应用于这些领域是可行的，我们计划在未来的工作中处理跨领域验证问题。

联系信箱：

粤ICP备09063491号

摘要：

热点排行