相关动态
ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!
2024-11-10 18:14

点击下方卡片,关注“CVer”公众号

ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐

892020048141d39774d8ebd327aa727e.png

李昊 投稿转载自:量子位(QbitAI

从一大堆图片中精准找图,有新招了!论文已经中了ECCV 2024。

北京大学袁粒课题组,联合南洋理工大学实验室,清华自动化所提出了一种新的通用检索任务通用风格检索(Style-Diversified Retrieval)

850b10975b4f3517e027234b56e8038b.png

一句话,这种检索任务要求模型面对风格多样的查询条件时,依然能精准找图。

传统图片检索主要靠文本查询,查询方法单一不说,在使用其他检索方案的性能也一般。

而论文提出的新图像检索方法,能够根据多样化的查询风格(如草图、艺术画、低分辨率图像和文本等)来检索相应图像,甚至包括组合查询(草图+文本、艺术+文本等)。

b022cb018a1aff49d2b02b739f7f707c.png

同时,模型在与其他检索基线之间的性能比较中达到SOTA(最外围蓝色

88cd03628ae634bf668dba24a560c3e7.png

目前,论文已在arXiv公开,相关代码和数据集也已开源。

当前,图像检索的一大痛点是

让检索模型具备理解多样化用户查询向量的能力

通俗点说就是,不管用户用哪种方式检索查询,最后都能命中用户想要的图像。

为了实现这一点,团队进行了两项工作

  • 构建专有的检索数据集,包括多种类型的查询图片。

  • 提出即插即用的框架,使传统检索模型也能快速具有通用检索能力。

数据集构建

针对多种查询风格的图片文本检索任务,团队生成并构建了细粒度检索数据集DSR(Diverse-Style Retrieval Dataset)。

展开来说,数据集包括10,000张自然图片以及对应的四种检索风格(文本、草图、低分辨率、卡通艺术)。

93fc3119beca566e1462a8243f043889.png

其中的草图标注由FSCOCO数据集提供,卡通艺术图片和低分辨率图像由AnimateDiff生成。

同时,团队也采用ImageNet-X作为大尺寸粗粒度的多风格检索数据集。

ImageNet-X包括100万张带有各种风格标注的自然图片,相较于DSR,ImageNet-X数据集的图片更加简单,便于检索。

提出FreestyleRet框架

概括而言,FreestyleRet框架通过将图片风格提取并注入,有效解决了当前图片检索模型无法兼容不同类型的检索向量的问题。

在构建FreestyleRet框架时,团队主要考虑到两个问题

  • 如何有效地理解不同风格的查询向量的语义信息。

  • 如何有效利用现有的图文检索模型,实现优秀的扩展能力。

围绕这两个核心问题,团队设计三个模块来组成FreestyleRet框架

(1)基于格拉姆矩阵的风格提取模块用于显式提取未知查询向量的风格表征(2风格空间构建模块,通过对风格表征聚类从而构建检索的风格空间,并将聚类中心作为风格的一致性表征(3风格启发的提示微调模块,通过对检索模型的Transformer layer进行风格初始化的插值,实现对现有检索模型的多风格查询能力扩展。

ec4c06cfe0d744370ada7e750aa83a8b.png

风格提取与风格空间的构建

格拉姆矩阵被验证为有效的图像风格提取方案,在本论文中团队采用基于格拉姆矩阵的风格提取模块对不同类型的查询向量进行风格提取。

团队采用冻结的VGG轻量化网络对查询向量进行表征编码,并选取浅层卷积表征作为风格提取的基特征,具体公式如下

d28e7c72d01f970515f702b589f8faac.png

在得到查询向量对应的风格表征集合后,团队为查询向量集合构建整体的风格空间

具体来说,采用K-Means聚类算法,迭代式的计算四种不同风格的查询向量集合对应的聚类中心,然后再对每个风格表征计算其所属的风格中心,并根据新的风格表征集合重新调整聚类中心的位置。

当聚类中心位置不再发生变化即为迭代完毕,公式如下

b22d36aa2df734f351ba721ebf7e5dff.png264068b050a955cc5252b4daf6d73daa.png

在风格空间中,团队将不同查询向量风格对应的不同聚类中心作为风格空间的基向量。

而在推理过程中面对未知风格的查询向量,风格空间将计算查询向量在基向量上的投影,通过对基向量投影与基向量的加权求和,风格空间实现对未知风格的量化。

高效风格注入的提示微调模块

在图像文本检索领域,基于Transformer结构的ALBEF, CLIP, BLIP等基础检索模型受到广泛的使用,很多下游工作采用了这些基础检索模型的编码器模块

为了让FreestyleRet框架能够便捷且高效的适配这些基础检索模型,团队采用风格表征初始化的token对基础编码器的Transformer结构进行提示微调

具体来说,在encoder layer的每层都插入使用量化风格表征初始化的可学习token,从而实现风格向编码器注入的流程。

6c4a702f0619d9162c78e15d135c77fa.png

在定量实验角度,团队分析了基于FreestyleRet架构的BLIP和CLIP模型在DSR数据集以及ImageNet-X数据集的Recall@1, Recall@5性能。

实验证明,面对多种风格的查询向量时,FreestyleRet框架可以显著增强现有检索模型的泛化能力具有2-4%的提升

5a98b0e02f0d0b9762eed0d504835b06.png

而团队也进一步验证FreestyleRet框架对于多个不同风格的查询向量共同输入的性能共同输入的查询向量可以进一步提升模型的检索精度。

c28b5a52813db5a293642c6942c71102.png

通过对特征分布进行可视化,团队发现使用FreestyleRet结构的基础检索模型能够有效分离查询向量中的风格信息与语义信息,并实现语义角度的高维空间聚类。

df8e04080347eee3f698217f8ea04d14.png

团队也对实际的检索推理流程进行了示例的可视化,以验证模型的泛化性。

2868dd2d78884a938214d0b1f2b7fdd7.png

总之,模型在5种不同类型的检索向量上都取得了良好效果,而且还在多种检索向量共同检索的子任务上表现了良好的扩展性。

更多详情欢迎查阅原论文。

论文:https://arxiv.org/abs/2312.02428代码、数据集:https://github.com/CuriseJia/FreeStyleRet

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT!赶紧学起来

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

Mamba、多模态和扩散模型交流群成立

 
 

    以上就是本篇文章【ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!】的全部内容了,欢迎阅览 ! 文章地址:http://nhjcxspj.xhstdz.com/news/4844.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://nhjcxspj.xhstdz.com/mobile/ , 查看更多   
最新文章
百度竞价的价格排名如何查看?切实有效的查询途径
百度竞价的价格排名如何查看?切实有效的查询途径:百度推广账户后台中关键词的价格近似于真实出价的价格,而且在账户的后台,存
防止人肉搜索/保护个人隐私,Google Voice教程/GV号小白使用经验分享
    最近一段时间,大家上网越来越注重个人隐私了,我当然也一样。    就在今年早些时候,我微博账号被冻结,创建新号的
掌握百度收录规则:优质内容与创新性助力网站成功收录
百度收录有其特定的规则,这对网站制作人员和内容制作者来说极为关键。掌握这些规则,能让更多人的目光落在自己的网页或文章上。
搜狐简单AI:开启AI绘画和文生图的新时代,提升创作效率
在一个充满竞争的数字时代,许多创作者深感压力,尤其是那些需要频繁生产高质量内容的个体。在这样的背景下,AI技术的崛起为创造
AI大模型与网球运动结合的应用场景及案例分析
        AI大模型与网球运动结合的未来前景是广阔的,它不仅能够提升运动员的训练和比赛表现,还能改善教练
最值得一看的精品网站之一,你绝不能错过!
在现代网络文学的浪潮中,精品小说层出不穷,吸引了无数读者的目光。推荐几部不可错过的网络佳作:首先是《全职高手》,讲述了电
郑州SEO优化攻略,揭秘助力企业网络飞跃的策略精髓
郑州SEO网络优化推广,为企业提供专业网络策略,提升网站排名,增强品牌曝光度。通过精准关键词、高质量内容、优化用户体验,助
揭秘网站刷关键词排名软件,效果与风险并存
随着互联网的飞速发展,网络营销已经成为企业推广产品和服务的重要手段,在众多网络营销策略中,提高网站在搜索引擎中的关键词排
科大讯飞AI智能写作:全方位助力文案创作与优化,解决多种写作需求
在数字化浪潮的推动下智能写作成为了提升工作效率、优化内容品质的关键工具。科大讯飞智能写作以其强大的语言解决能力和丰富的创
支付宝小程序搜索排名优化,算法规则基础了解
小程序市场可谓是百花齐放,争奇斗艳。小程序搜索排名优化则为小程序获利提供了强大的支持。做优化首先要知道平台的规则&#
相关文章