
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图像-文本多模态的多粒度面部美学评估模型(ITM-MGFA):融合跨模态认知计算的新范式
【字体: 大 中 小 】 时间:2025年09月24日 来源:Knowledge-Based Systems 7.6
编辑推荐:
本文创新性地提出基于图像-文本多模态的多粒度面部美学评估模型(ITM-MGFA),通过引入多粒度认知理论,结合多粒度表征模块(MGR)、任务导向动态对齐模块(T-ODA)和分层交互优化模块(HIO),实现了跨模态美学特征的深层融合与对齐。该模型显著提升了面部美学预测(FBP)的准确性,为医美个性化方案推荐、社交媒体颜值优化等场景提供了可靠的AI解决方案。
Highlight
本文将多粒度认知理论与跨模态融合技术相结合,提出了基于多模态的面部美学评估理论框架(ITM-MGFA)。通过双模态多粒度特征的协同分析,克服了现有基于图像的单模态面部美学评估方法依赖单粒度特征的局限性,提升了美学评估的全面性和准确性。
借鉴人类认知中"从全局到局部"的多层次分析策略,设计了多粒度表征模块(MGR),将图像和文本模态分解为不同粒度的特征,从而实现图像-文本组合的多粒度特征表征。
本文开发了任务导向动态对齐模块(T-ODA)。尽管该模块基于现有的多模态图卷积与对比学习结合概念,但利用余弦相似度构建的跨模态图来关联图像和文本中与美学相关的特征,能够过滤非美学因素并去除与美学评估无关的冗余信息。
结论与未来工作
本文构建了基于多模态的面部美学评估理论框架(ITM-MGFA)。该框架将多粒度认知理论引入面部美学评估,通过MGR模块建立双模态多粒度特征表征,利用T-ODA模块实现美学语义驱动的局部对齐,并通过HIO模块对多粒度特征进行优化和交互,从而提升跨模态美学评估的准确性和鲁棒性。未来工作将探索更细粒度的美学属性分解机制,并扩展模型在动态视频序列中的应用。
作者贡献声明
陈焕宇: 原稿撰写、验证、方法论、调研、形式化分析。王勇: 文稿审阅与编辑、资金获取。李伟生: 文稿审阅与编辑、资金获取。肖斌: 文稿审阅与编辑、研究指导。
利益冲突声明
作者声明不存在任何可能影响本研究结果的已知经济利益冲突或个人关系。
生物通微信公众号
知名企业招聘