Clip4Cir开源:基于参考图像和文字描述搜索图片
站长网2023-08-26 16:04:500阅
Clip4Cir采用了一种搜索图片的方法,图片看起来像给定的图片,但是在标题中描述了变化。它使用了增加了特殊技巧的 CLIP 模型。该方法在流行的图像搜索数据集 FashionIQ 和 CIRR 上表现更佳。

项目地址:https://github.com/ABaldrati/CLIP4Cir
CLIP 模型是一个多模态视觉模型,它可以理解自然语言描述与图像的复杂对应关系。通过在标题中描述变化,可以更精确地寻找符合用户需求的图像。这一改进将有助于提高图像搜索的准确性和用户体验。
主要内容包括:
项目目标:实现基于参考图像和文字描述的图像检索任务
模型框架:先微调CLIP encoder,再训练Combiner网络进行多模态融合
数据集:使用FashionIQ和CIRR两个流行的数据集
用法:提供了CLIP微调、Combiner训练、评估等多个脚本
效果:验证结果表明,相比复杂的SOTA方法,该方案可以获得更好的性能
特点:代码清晰易于理解,便于研究
总体来说,本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案,值得关注和参考。
0000
评论列表
共(0)条相关推荐
iPhone15价格跌至史上最低!苹果天猫官方店iPhone降价1000
苹果官网近日启动了降价活动,iPhone15系列降价500元、MacBookAir降800元,不过网友对此表示力度不足。而值得注意的是,在官网优惠的同时,苹果天猫官方旗舰店也加入了降价行列,活动从1月20日20点开始至1月31日。站长网2024-01-17 16:05:060000区块链百科全书IQ.wiki推出基于ChatGPT的搜索引擎“IQ GPT”
IQ.wiki是一个基于区块链的百科全书,现已推出基于OpenAI的ChatGPT技术的搜索引擎,以帮助加密货币用户搜索各种来源的信息。站长网2023-08-11 16:15:290000腾讯发布汽车行业大模型全栈能力架构
腾讯公司在“2024TIMEDAY·腾讯智慧出行技术开放日”活动上正式发布了面向汽车行业的“全域智能”大模型方案。此方案已顺利应用于汽车研发、生产、营销、服务以及企业协同办公等五大核心场景,展现出了强大的实用性和潜力。同时,腾讯还针对智能汽车云、智能座舱以及海外市场拓展等方面推出了全面升级的解决方案。站长网2024-04-24 15:50:130001【话媒堂】对话@刘雨鑫JASON:从美食爱好者进阶吃货“掌门人”
“《XFUN吃货俱乐部》吃货掌门人10年吃了40国家6000餐厅。”这是写在@刘雨鑫JASON抖音简介的一句话,作为早期互联网旅行美食综艺《XFUN吃货俱乐部》的主持人和新晋的美食自媒体博主,@刘雨鑫JASON已深耕美食赛道11年。站长网2023-12-15 18:20:1600011