
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态大语言模型与OCR的Android设备取证自动化框架Thumb研究
【字体: 大 中 小 】 时间:2025年06月18日 来源:Forensic Science International: Digital Investigation 2.0
编辑推荐:
针对Android设备取证中因自动缩略图生成导致的用户行为归因难题,研究人员开发了集成MLLM和OCR的Thumb框架,通过实时屏幕信息捕获与交互模拟实现精准取证。实验证明该框架能有效关联用户操作与数字痕迹,为简化复杂取证流程提供新范式。
随着移动互联网的普及,Android设备取证在打击网络犯罪中的作用日益凸显。然而,应用程序和操作系统自动生成的缩略图、动态缓存等数字痕迹,往往与用户主动行为难以区分,这在涉及儿童性剥削内容(CEM)等重大案件中可能造成关键证据链断裂。传统取证工具如ForDroid和EvilHunter依赖静态分析,无法关联具体用户操作;而动态分析工具如AnforA受限于虚拟环境,且需要复杂的脚本编写。这种技术缺口使得数字取证面临准确性、效率和可及性三重挑战。
针对这一难题,研究人员开发了名为Thumb的取证自动化框架。该框架创新性地融合了多模态大语言模型(MLLM)和光学字符识别(OCR)技术,可直接在物理设备上执行自然语言指令驱动的实验。通过视觉感知模块实时解析屏幕信息,结合双MLLM架构(分别负责信息解读和行动决策),Thumb能精准模拟点击、滑动等操作,同时监控/data/data目录下的缓存和缩略图变化。实验证明,该框架在YouTube、Twitch等12类应用中成功率达到92%,且能识别177×177至720×956像素不等的犯罪相关缩略图,其SIFT算法匹配准确度较传统工具有显著提升。
关键技术包括:1)基于Qwen-LV-Plus和ChatGPT-4V的双MLLM架构实现屏幕理解与决策;2)通过ADB命令与root权限实现物理设备数据提取;3)采用SIFT(Scale-Invariant Feature Transform)算法进行缩略图相似性比对;4)集成python-magic库实现文件类型自动分类。
研究结果分为四个维度:
讨论部分指出,Thumb的创新性体现在三个方面:首次将MLLM引入取证自动化领域,通过自然语言交互降低技术门槛;突破虚拟环境限制,直接获取真实设备行为数据;开发差异比对算法实现操作-痕迹的精准映射。不过,框架对未分配空间分析和流媒体文件的支持仍待加强,且依赖设备root权限可能限制适用范围。
这项发表于《Forensic Science International: Digital Investigation》的研究,为Android取证提供了首个支持自然语言交互的自动化解决方案。其技术路线不仅适用于CEM调查,还可扩展至金融欺诈、数据泄露等多类案件,标志着人工智能与司法取证深度融合的重要进展。未来通过集成更强大的反广告干扰模块和扩展文件类型支持,有望成为数字犯罪侦查的标准工具。
生物通微信公众号
知名企业招聘