基于多模态大语言模型与OCR的Android设备取证自动化框架Thumb研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月18日 来源：Forensic Science International: Digital Investigation 2.0

编辑推荐：

　　针对Android设备取证中因自动缩略图生成导致的用户行为归因难题，研究人员开发了集成MLLM和OCR的Thumb框架，通过实时屏幕信息捕获与交互模拟实现精准取证。实验证明该框架能有效关联用户操作与数字痕迹，为简化复杂取证流程提供新范式。

随着移动互联网的普及，Android设备取证在打击网络犯罪中的作用日益凸显。然而，应用程序和操作系统自动生成的缩略图、动态缓存等数字痕迹，往往与用户主动行为难以区分，这在涉及儿童性剥削内容(CEM)等重大案件中可能造成关键证据链断裂。传统取证工具如ForDroid和EvilHunter依赖静态分析，无法关联具体用户操作；而动态分析工具如AnforA受限于虚拟环境，且需要复杂的脚本编写。这种技术缺口使得数字取证面临准确性、效率和可及性三重挑战。

针对这一难题，研究人员开发了名为Thumb的取证自动化框架。该框架创新性地融合了多模态大语言模型(MLLM)和光学字符识别(OCR)技术，可直接在物理设备上执行自然语言指令驱动的实验。通过视觉感知模块实时解析屏幕信息，结合双MLLM架构（分别负责信息解读和行动决策），Thumb能精准模拟点击、滑动等操作，同时监控/data/data目录下的缓存和缩略图变化。实验证明，该框架在YouTube、Twitch等12类应用中成功率达到92%，且能识别177×177至720×956像素不等的犯罪相关缩略图，其SIFT算法匹配准确度较传统工具有显著提升。

关键技术包括：1）基于Qwen-LV-Plus和ChatGPT-4V的双MLLM架构实现屏幕理解与决策；2）通过ADB命令与root权限实现物理设备数据提取；3）采用SIFT(Scale-Invariant Feature Transform)算法进行缩略图相似性比对；4）集成python-magic库实现文件类型自动分类。

研究结果分为四个维度：

架构验证：三模块设计（认证、自动化测试、分析）有效支持从设备连接到证据链构建的全流程，其中视频暂停功能通过KEYCODE_MEDIA_PAUSE事件实现，虽与真实点击存在差异但确保操作可行性。
虚实对比：物理设备实验发现Chrome登录数据存储位置与虚拟机存在显著差异，如密码字段仅出现在虚拟机的Login Data数据库，凸显真实环境取证的必要性。
行为区分：相机拍摄与WhatsApp保存的图片虽同为3070×4080像素，但前者会在DCIM/.thumbnails目录生成177×177缩略图，后者则无此特征，为行为溯源提供关键依据。
性能评估：在无广告干扰场景下，平均操作耗时58-80秒，提取时间与缓存大小正相关（80MB需10秒，500MB需100秒），错误步骤率低于5%。

讨论部分指出，Thumb的创新性体现在三个方面：首次将MLLM引入取证自动化领域，通过自然语言交互降低技术门槛；突破虚拟环境限制，直接获取真实设备行为数据；开发差异比对算法实现操作-痕迹的精准映射。不过，框架对未分配空间分析和流媒体文件的支持仍待加强，且依赖设备root权限可能限制适用范围。

这项发表于《Forensic Science International: Digital Investigation》的研究，为Android取证提供了首个支持自然语言交互的自动化解决方案。其技术路线不仅适用于CEM调查，还可扩展至金融欺诈、数据泄露等多类案件，标志着人工智能与司法取证深度融合的重要进展。未来通过集成更强大的反广告干扰模块和扩展文件类型支持，有望成为数字犯罪侦查的标准工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号