基于维基百科的源可靠性的语言无关建模

《ACM Transactions on the Web》:Language-Agnostic Modeling of Source Reliability on Wikipedia

【字体: 时间:2025年11月19日 来源:ACM Transactions on the Web

编辑推荐:

  跨语言模型评估维基百科引用可靠性,基于编辑活动数据构建特征,其中域名持久性(存在于文章时间)是关键预测因子,高资源语言F1达0.80,低资源语言存在性能差异,通过跨语言模型迁移提升效果。

  

摘要

在过去的几年中,验证信息来源的可信度已成为打击虚假信息的重要需求。在这里,我们提出了一种与语言无关的模型,用于评估维基百科多语言版本中引用的网站域名的可靠性。该模型利用编辑活动数据,评估了不同争议性话题(如气候变化、COVID-19、历史、媒体和生物学)相关文章中域名的可靠性。通过构建能够反映域名在各类文章中使用情况的特征,该模型能够有效预测域名的可靠性,英文及其他资源丰富语言的F1宏分数约为0.80。对于资源中等的语言,这一分数为0.65,而资源匮乏语言的性能则有所不同。在所有情况下,域名在文章中持续存在的时长(我们将其称为“持久性”)是最具预测性的特征之一。我们指出了在不同资源水平的语言中保持模型性能一致性的挑战,并证明了从资源丰富的语言中调整模型可以提高性能。我们相信这些发现可以帮助维基百科编辑们继续努力验证引文,并可能为其他用户生成的内容社区提供有用的见解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号