
-
生物通官微
陪你抓住生命科技
跳动的脉搏
移动设备多模态嵌入系统Reminisce:实现高效记忆增强的算法-硬件协同设计
【字体: 大 中 小 】 时间:2025年06月20日 来源:Nature Communications 14.7
编辑推荐:
本研究针对移动设备多模态嵌入模型(MEM)资源消耗高、吞吐量低的问题,提出Reminisce系统。通过受人类记忆机制启发的粗粒度嵌入和查询驱动的细粒度检索策略,结合数据感知预退出预测、渐进式LoRA修复和推测性检索三项算法-硬件协同优化,在Jetson ORIN等移动设备上实现12.4倍吞吐量提升和29倍能耗降低,同时保持与完整模型相当的检索准确率,为隐私保护的移动端记忆增强服务提供新范式。
在移动设备普及的今天,智能手机持续记录着用户生活的多模态数据,从图像、文本到音频和传感器数据。然而这些数据的利用率却长期受限——问题不在于存储能力(iPhone 15 Pro已具备1TB存储),而在于如何高效检索这些异构数据。传统方法面临双重困境:一方面,多模态嵌入模型(Multimodal Embedding Models, MEM)如CLIP和ImageBind虽能统一不同模态的语义空间,但其庞大的计算需求(处理单张图像需数十秒)导致移动端吞吐量严重不足,实测显示仅能处理每日生成数据的20%;另一方面,云端方案虽能解决算力问题,却会暴露用户隐私数据如屏幕界面、语音记录等敏感信息。这种"算力与隐私不可兼得"的现状,严重制约了移动设备作为"记忆宫殿"潜力的发挥。
北京大学、英国剑桥大学等机构的研究人员Dongqi Cai、Shangguang Wang等开发了名为Reminisce的移动端多模态嵌入系统。该系统受人类记忆的"自上而下预测"机制启发,通过粗粒度嵌入筛选候选,再经查询驱动的细粒度检索精确匹配,配合三项关键技术创新:1)基于中间嵌入特征的数据感知预退出预测器,实现跨模态统一的早期退出决策;2)渐进式LoRA修复技术,通过分层共享低秩适配权重保持退出层性能;3)推测性细粒度检索机制,平衡不同退出层嵌入的分布差异。研究成果发表于《Nature Communications》,为隐私保护的移动智能服务提供了新思路。
关键技术方法包括:1)基于ImageBind和CLIP构建多模态嵌入基准;2)在COCO、FLICKR等数据集验证跨模态检索性能;3)在Jetson ORIN、树莓派4B等移动硬件平台测试;4)采用INT4/INT8量化降低内存占用;5)通过可访问性服务收集8名用户真实移动应用轨迹验证实用性。
【整体框架】系统包含离线嵌入和在线查询两个运行时:前者持续编码设备生成的多模态数据为1024维粗粒度嵌入;后者在用户查询时生成细粒度嵌入进行精确匹配。这种设计模拟人脑长期记忆机制,将计算密集型操作推迟到低频的查询阶段。
【初步测量】用户研究显示,现有MEM在移动CPU设备上需100小时才能处理单日生成的图像数据,能耗超过游戏应用1.8倍。即便使用Jetson ORIN GPU,持续运行也会导致电池续航不足2小时。
【系统设计】核心创新包括:1)数据感知预退出预测器通过分析中间嵌入相似度,提前确定最优退出层,实现批量调度;2)渐进式LoRA修复采用分层调参策略,后期出口共享更多层权重,在保持性能同时减少78%参数;3)推测性检索先在各粒度筛选候选,再通过二次匹配确保准确性。
【实验结果】在Jetson ORIN上,Reminisce实现45倍吞吐量提升,相对准确率损失<3%。Twitter表情包案例研究显示,处理805张图像的时间从80分钟缩短至28分钟,内存占用降低7倍至200MB以下。真实用户轨迹测试表明,系统可将每日充电次数从3次降至1次,同时完成全部数据嵌入。
研究结论指出,Reminisce首次实现了MEM赋能的移动搜索服务架构,通过算法-硬件协同设计解决了嵌入吞吐量与能耗的关键矛盾。与需要复杂硬件支持的稀疏化/量化方案不同,该系统可直接部署于现有移动设备,在保持87%检索准确率的同时,使日均数据处理量从20%提升至100%。特别值得关注的是,渐进式LoRA修复技术通过权重共享策略,在移动端有限资源下实现了接近完整模型的语义表达能力。这项工作不仅为隐私保护的移动智能服务奠定基础,也为边缘计算时代的模型轻量化提供了新思路——通过模拟人类记忆机制的分层处理策略,在计算效率与模型性能间取得巧妙平衡。研究者开源了项目代码,包括预训练模型和移动端部署方案,有望推动更多设备端AI应用的发展。
生物通微信公众号
知名企业招聘