全球 50 国合成浏览历史数据集:为研究、开发与教育开辟新路径

【字体: 时间:2025年01月23日 来源:Scientific Data 5.8

编辑推荐:

  在研究、教育和开发中,真实浏览历史数据的使用面临隐私泄露和数据滥用风险。研究人员开展 “合成浏览历史数据集” 研究,生成 50 国 500 条合成浏览历史数据。该成果可用于多领域研究,突破真实数据限制。

  在当今数字化时代,网络浏览行为产生的大量数据蕴含着巨大价值,无论是对于学术研究、教育实践,还是商业开发都意义非凡。然而,收集和使用真实的浏览历史数据却困难重重。一方面,人们担心个人隐私泄露,不愿分享自己的浏览记录;另一方面,即便获取了数据,使用个人数据时必须获得签署的知情同意书,不同国家法律差异使得大规模、跨国收集数据障碍重重。更糟糕的是,研究发现匿名化的浏览历史也能导致个人身份被重新识别,这让知情同意所承诺的匿名性化为泡影。在这样的困境下,开展一项能够解决这些问题的研究迫在眉睫。
来自布尔诺科技大学(Brno University of Technology)、弗林德斯大学(Flinders University)和拉合尔管理科学大学(Lahore University of Management Sciences)的研究人员决定迎接挑战,致力于创建合成浏览历史数据集。他们的研究成果发表在《Scientific Data》上,为相关领域带来了新的曙光。

研究人员采用了一系列复杂且精妙的技术方法。首先,以真实浏览历史为基础,通过一系列转换标准来构建合成浏览历史。利用 Common Crawl 数据转换网站尾页,借助 OpenStreetMap 数据收集当地网站,使用网站内容检测模型和语言检测模型对网站进行分类匹配。算法输入包括原始浏览历史、Common Crawl 数据、国家和世界排名网站、OpenStreetMap 数据、网站内容检测模型、语言检测模型以及目标国家列表等,通过多步骤的筛选、匹配和转换,最终生成符合目标国家特征的合成浏览历史。

研究结果


  1. 合成历史的构建与验证:研究人员成功生成了 50 个国家的 500 条合成浏览历史,每条历史涵盖一个月的网页访问记录,且保持了网页访问顺序。这些合成历史经过技术验证,包含目标国家用户常访问的网站,其内容类别如商业(Business)、通用(Generic)、新闻(News)、购物(Shopping)和社会(Society)均存在,并且在各国之间具有一致性。
  2. 合成历史的应用潜力
    • 网络安全领域:合成浏览数据可用于训练和测试异常检测系统,例如在网络钓鱼检测(phishing detection)中,合成历史提供了特定国家有效的良性 URL 数据集,有助于训练更精准的网络钓鱼检测模型,从而开发出更具针对性的网络钓鱼检测系统。
    • 机器学习算法验证:合成历史中的本地 URL 可用于测试网络爬虫等机器学习算法,为算法的优化和验证提供支持。
    • 网络数据分析:合成浏览历史能够为全球和本地网络数据研究提供有价值的见解,帮助研究人员了解不同国家的网络使用模式和趋势。


研究结论与讨论


这项研究成果意义重大。从实际应用角度来看,合成浏览历史数据集为研究人员、教育工作者和开发者提供了宝贵资源,在不侵犯个人隐私的前提下,满足了多领域对浏览历史数据的需求。在网络安全研究中,它突破了真实数据隐私限制,有助于提升网络安全防护能力;在机器学习算法验证方面,为算法的发展和优化提供了可靠的数据支持;在网络数据分析领域,为探索全球和各国网络行为模式提供了新的途径。

从学术研究层面,该研究为后续相关研究奠定了基础。其构建合成浏览历史的方法和技术,为其他涉及数据隐私保护和合成数据生成的研究提供了参考范例。研究中发现的问题,如部分记录语言检测失败导致转换不成功,也为进一步改进技术方法指明了方向。

总体而言,这项研究成果为解决真实浏览历史数据使用困境提供了创新解决方案,在多个领域展现出巨大的应用潜力,有望推动相关领域的快速发展,为数字化时代的进步贡献重要力量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号