基于多模态大语言模型与OCR的Android设备取证自动化框架Thumb研究

【字体: 时间:2025年06月18日 来源:Forensic Science International: Digital Investigation 2.0

编辑推荐:

  针对Android设备取证中因自动缩略图生成导致的用户行为归因难题,研究人员开发了集成MLLM和OCR的Thumb框架,通过实时屏幕信息捕获与交互模拟实现精准取证。实验证明该框架能有效关联用户操作与数字痕迹,为简化复杂取证流程提供新范式。

  

随着移动互联网的普及,Android设备取证在打击网络犯罪中的作用日益凸显。然而,应用程序和操作系统自动生成的缩略图、动态缓存等数字痕迹,往往与用户主动行为难以区分,这在涉及儿童性剥削内容(CEM)等重大案件中可能造成关键证据链断裂。传统取证工具如ForDroid和EvilHunter依赖静态分析,无法关联具体用户操作;而动态分析工具如AnforA受限于虚拟环境,且需要复杂的脚本编写。这种技术缺口使得数字取证面临准确性、效率和可及性三重挑战。

针对这一难题,研究人员开发了名为Thumb的取证自动化框架。该框架创新性地融合了多模态大语言模型(MLLM)和光学字符识别(OCR)技术,可直接在物理设备上执行自然语言指令驱动的实验。通过视觉感知模块实时解析屏幕信息,结合双MLLM架构(分别负责信息解读和行动决策),Thumb能精准模拟点击、滑动等操作,同时监控/data/data目录下的缓存和缩略图变化。实验证明,该框架在YouTube、Twitch等12类应用中成功率达到92%,且能识别177×177至720×956像素不等的犯罪相关缩略图,其SIFT算法匹配准确度较传统工具有显著提升。

关键技术包括:1)基于Qwen-LV-Plus和ChatGPT-4V的双MLLM架构实现屏幕理解与决策;2)通过ADB命令与root权限实现物理设备数据提取;3)采用SIFT(Scale-Invariant Feature Transform)算法进行缩略图相似性比对;4)集成python-magic库实现文件类型自动分类。

研究结果分为四个维度:

  1. 架构验证:三模块设计(认证、自动化测试、分析)有效支持从设备连接到证据链构建的全流程,其中视频暂停功能通过KEYCODE_MEDIA_PAUSE事件实现,虽与真实点击存在差异但确保操作可行性。
  2. 虚实对比:物理设备实验发现Chrome登录数据存储位置与虚拟机存在显著差异,如密码字段仅出现在虚拟机的Login Data数据库,凸显真实环境取证的必要性。
  3. 行为区分:相机拍摄与WhatsApp保存的图片虽同为3070×4080像素,但前者会在DCIM/.thumbnails目录生成177×177缩略图,后者则无此特征,为行为溯源提供关键依据。
  4. 性能评估:在无广告干扰场景下,平均操作耗时58-80秒,提取时间与缓存大小正相关(80MB需10秒,500MB需100秒),错误步骤率低于5%。

讨论部分指出,Thumb的创新性体现在三个方面:首次将MLLM引入取证自动化领域,通过自然语言交互降低技术门槛;突破虚拟环境限制,直接获取真实设备行为数据;开发差异比对算法实现操作-痕迹的精准映射。不过,框架对未分配空间分析和流媒体文件的支持仍待加强,且依赖设备root权限可能限制适用范围。

这项发表于《Forensic Science International: Digital Investigation》的研究,为Android取证提供了首个支持自然语言交互的自动化解决方案。其技术路线不仅适用于CEM调查,还可扩展至金融欺诈、数据泄露等多类案件,标志着人工智能与司法取证深度融合的重要进展。未来通过集成更强大的反广告干扰模块和扩展文件类型支持,有望成为数字犯罪侦查的标准工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号