Clip4Cir开源：基于参考图像和文字描述搜索图片

站长网2023-08-26 16:04:500阅

Clip4Cir采用了一种搜索图片的方法，图片看起来像给定的图片，但是在标题中描述了变化。它使用了增加了特殊技巧的 CLIP 模型。该方法在流行的图像搜索数据集 FashionIQ 和 CIRR 上表现更佳。

项目地址:https://github.com/ABaldrati/CLIP4Cir

CLIP 模型是一个多模态视觉模型，它可以理解自然语言描述与图像的复杂对应关系。通过在标题中描述变化，可以更精确地寻找符合用户需求的图像。这一改进将有助于提高图像搜索的准确性和用户体验。

主要内容包括:

项目目标:实现基于参考图像和文字描述的图像检索任务

模型框架:先微调CLIP encoder，再训练Combiner网络进行多模态融合

数据集:使用FashionIQ和CIRR两个流行的数据集

用法:提供了CLIP微调、Combiner训练、评估等多个脚本

效果:验证结果表明，相比复杂的SOTA方法，该方案可以获得更好的性能

特点:代码清晰易于理解，便于研究

总体来说，本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案，值得关注和参考。

Clip4Cir开源基于参考图像和文字描述搜索图片

0000

评论列表

共(0)条

相关推荐

站长资讯
iPhone15价格跌至史上最低！苹果天猫官方店iPhone降价1000
苹果官网近日启动了降价活动，iPhone15系列降价500元、MacBookAir降800元，不过网友对此表示力度不足。而值得注意的是，在官网优惠的同时，苹果天猫官方旗舰店也加入了降价行列，活动从1月20日20点开始至1月31日。
站长网2024-01-17 16:05:06
0000
OPPO Find X7系列将支持卫星通信技术：支持听筒/免提双模卫星通话
OPPO在最新的FindX7系列技术沟通会上，宣布OPPOFindX7系列成为OPPO首款支持卫星通信的智能手机。
站长网站长资讯2023-12-27 16:39:28
0000
站长资讯
区块链百科全书IQ.wiki推出基于ChatGPT的搜索引擎“IQ GPT”
IQ.wiki是一个基于区块链的百科全书，现已推出基于OpenAI的ChatGPT技术的搜索引擎，以帮助加密货币用户搜索各种来源的信息。
站长网2023-08-11 16:15:29
0000
站长资讯
腾讯发布汽车行业大模型全栈能力架构
腾讯公司在“2024TIMEDAY·腾讯智慧出行技术开放日”活动上正式发布了面向汽车行业的“全域智能”大模型方案。此方案已顺利应用于汽车研发、生产、营销、服务以及企业协同办公等五大核心场景，展现出了强大的实用性和潜力。同时，腾讯还针对智能汽车云、智能座舱以及海外市场拓展等方面推出了全面升级的解决方案。
站长网2024-04-24 15:50:13
0001
站长资讯
【话媒堂】对话@刘雨鑫JASON：从美食爱好者进阶吃货“掌门人”
“《XFUN吃货俱乐部》吃货掌门人10年吃了40国家6000餐厅。”这是写在@刘雨鑫JASON抖音简介的一句话，作为早期互联网旅行美食综艺《XFUN吃货俱乐部》的主持人和新晋的美食自媒体博主，@刘雨鑫JASON已深耕美食赛道11年。
站长网2023-12-15 18:20:16
00011