使用机器学习和自然语言处理技术对用户创建的密码进行分类

《Internet of Things》:Classifying user-created passwords using machine learning and natural language processing techniques

【字体: 时间:2025年12月30日 来源:Internet of Things 7.6

编辑推荐:

  用户创建密码的机器学习分类方法研究,提出基于Bag-of-Words和逻辑回归的分层分类模型,在真实泄露数据集(Collection #1)上验证,准确率达97.81%,弱密码召回率99.66%,解决传统方法数据质量差和仅用准确率评估的缺陷。

  
Binh Le Thanh Thai|Tsubasa Takii|Hidema Tanaka
日本国立防卫学院,神奈川县横须贺市

摘要

密码是主要的认证方法。然而,由于语言、文化和键盘布局等各种外部因素的影响,评估用户创建的密码的强度仍然是一个重大挑战。在本文中,我们解决了将用户创建的密码分类到预定义组中的问题,而不是直接评估它们的强度。首先,我们使用八种机器学习(ML)算法和四种自然语言处理技术来评估分类器的性能,以确定ML算法和特征提取方法的最佳组合。通过这个实验,我们确定结合了“词袋模型”(Bag-of-Words)和逻辑回归(Logistic Regression)的分类器是分类用户创建密码的最有效方法。随后,我们提出了一种层次化分类模型来提高该分类器的性能。实验结果表明,所提出的模型对于弱密码的分类准确率为97.81%,召回率为99.66%。

引言

认证是信息安全领域中的一个基本组成部分。在各种认证方法中,密码由于部署成本低、易于恢复和使用简单等优点而成为最广泛使用的方法。随着技术的迅速发展和互联网的普及,几乎所有数字服务都依赖于密码,使我们的日常生活越来越依赖于它们。然而,基于密码的认证存在关键且容易被利用的安全漏洞[1]、[2]、[3]、[4]、[5]。主要原因在于用户更倾向于选择易于记忆的密码,这往往导致密码组合过于简单,并在多个平台上重复使用[6]、[7]、[8]。此外,近年来大规模的密码泄露事件变得越来越常见[9]、[10]、[11]。
在物联网(IoT)的背景下,这一挑战尤为突出。物联网的迅速普及导致连接设备的数量大幅增加,从智能家居设备到工业传感器都有使用密码进行安全保护的。物联网设备上的弱密码可能导致严重的隐私泄露,甚至使设备被纳入大规模僵尸网络,对周围的互联网基础设施构成重大威胁[12]、[13]。因此,解决受文化、语言和键盘布局等因素严重影响的用户创建密码的安全问题是一个紧迫的任务。
为了降低与密码相关的风险,研究主要沿着两条路径进行:(1)开发破解密码的方法来展示威胁(例如[8]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24];(2)创建密码强度测量器(Password Strength Meters, PSMs)来估计潜在风险(例如[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32])。机器学习(ML)的进步对这两个领域都产生了重大影响。本研究重点关注后者,即应用ML技术来评估用户创建的密码的强度。
我们没有直接评估密码的强度,而是解决了将密码分类到预定义组(例如,弱密码、普通密码、强密码)的问题。虽然之前已经有研究探索了这种基于分类的方法[33]、[34]、[35]、[36]、[37],但这些研究存在两个主要缺点,这也是我们开展这项工作的动机。
数据质量:为了有效,数据集必须满足两个条件:(1)它包含现实世界中使用的用户创建的密码;(2)密码根据可靠的标准(如高质量的PSM)进行了适当的标记。之前的研究没有满足这些条件,这些研究通常依赖于生成器生成的密码或来源未经验证的数据集,且标记程序不完善,从而削弱了分类器的可靠性(详见第2.2节)。
评估指标不足:之前的研究仅关注准确率作为评估分类器性能的唯一指标。然而,对于弱密码来说,召回率同样重要,甚至更为重要。将强密码错误地分类为弱密码只会造成不便,而不会显著影响系统的整体安全性。相反,将弱密码错误地分类为强密码会引入重大的安全风险。因此,对于任何实际应用来说,实现高召回率对于弱密码至关重要。
为了解决这些限制,本文做出了以下关键贡献。
数据:我们使用了来自已知最大数据泄露事件#1的泄露密码,并使用可靠的PSM对其进行标记。该数据集旨在公开共享,以促进未来的研究。
合理的评估指标:据我们所知,我们是第一个强调弱密码召回率重要性并将其作为评估分类器性能的主要指标的研究。实验结果表明,在使用八种ML算法和四种自然语言处理(NLP)技术的32个分类器中,结合了“词袋模型”和逻辑回归的分类器最适合用于分类用户创建的密码。
层次化分类模型:我们还提出了一种层次化分类模型,以提高使用“词袋模型”和逻辑回归的分类器的性能。该模型对于弱密码的分类准确率为97.81%,召回率为99.66%。此外,该模型轻量级,部署成本低,完全适合集成到实际系统中。
本文的其余部分组织如下:第2节介绍了关于PSM和利用ML进行密码分类的先前研究。第3节描述了研究方法,包括所使用的技术、基线模型的两个主要阶段以及性能评估指标。第4节展示了使用八种ML算法和四种NLP技术的32个分类器的实验结果。第5节详细介绍了所提出的层次化模型及其性能、实际适用性和集成方式。第6节讨论了伦理考虑、研究局限性和未来工作的方向。最后,第7节总结了本文。

章节片段

相关研究

在本节中,我们介绍了关于PSM和利用ML进行密码分类的先前研究。

研究方法

在本节中,我们描述了所提出的方法,包括相关技术、基线分类模型的两个主要阶段的详细信息以及评估分类器性能的指标。图1展示了基线分类模型的框架。如图所示,该模型通过两个主要阶段运行:(I)预处理,包括收集、清洗和标记现实世界的密码数据集;(II)5折交叉验证,我们系统地对其进行评估

实验结果

在本节中,我们展示了使用两个关键指标(准确率和召回率)评估的分类器在用户创建密码分类方面的性能结果。为了简洁地表示分类器,我们使用“A-B”的符号,其中A表示NLP技术,B表示ML算法。例如,BoW-DT表示使用BoW进行特征提取,DT作为分类算法的分类器。

利用层次化模型提高性能

在上一节中,我们确定BoW-LogReg是最适合用户创建密码分类的分类器。在本节中,我们提出了一种层次化分类模型,旨在提高BoW-LogReg分类器的性能。

伦理考虑

在这项研究中,我们使用了来自#1数据集的泄露密码。我们充分认识到,即使这些数据集已经公开可用,使用它们也承担着重大的伦理责任。本研究致力于保护个人免受潜在伤害。在整个研究过程中采取了以下措施来管理和减轻伦理风险。
首先,如第3.2节所述,我们认识到原始数据

结论

在本文中,我们旨在通过利用从#1数据集收集的高质量数据集并使用先进的SMMl-PSM方法进行标记,来解决用户创建密码的分类问题。这些因素,加上严格的伦理数据处理,确保了所开发的分类器既有效又具有实际应用性。该数据集将在GitHub上公开共享,以促进该领域的研究的可重复性和进一步发展。
与32个

CRediT作者贡献声明

Binh Le Thanh Thai:撰写——原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据管理、概念化。Tsubasa Takii:资源。Hidema Tanaka:项目管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号