FC-CLIP彻底改变全景分割:统一的单级AI 框架
要点:
1、全景分割将语义分割和实例分割相结合,对图像进行精细分割标注,但受限于数据集标注成本。
2、FC-CLIP通过冻结卷积CLIPbackbone实现掩码生成和CLIP文本对齐分类的单阶段统一,突破闭词汇限制。
3、FC-CLIP设计简单高效,参数和计算量都大大减少,性能显著提升,可扩展到开放词汇场景。
全景分割是将图像分割成有意义的部分或区域的基础计算机视觉任务,对各种应用如医学图像分析和自动驾驶具有关键作用。全景分割将语义分割的对每个像素进行对象分类,和实例分割的对同类不同实例进行区分相结合,目标是为每个实例生成不重叠的掩码并赋予类别标签。
多年来,研究者不断提升全景分割模型性能,重点关注全景质量指标。但是基于闭词汇的限制严重制约了这些模型的实际应用,因为数据集细颗粒度标注的高成本限制了语义类别数目。这成为全景分割应用的关键难题。
项目地址:https://github.com/bytedance/fc-clip
计算机视觉社区探索开放词汇分割来克服闭词汇的限制。这种范式利用单词的文本嵌入作为类别标签嵌入,大大增强了模型处理更广泛类别的能力。CLIP等多模态预训练模型利用其从海量互联网数据中学习对齐图像文本特征表示的能力,在开放词汇分割中显示出巨大潜力。
近期的两阶段方法如SimBaseline和OVSeg改编了CLIP进行开放词汇分割,但固有的低效和分割与分类不一致的问题仍然存在。提出单阶段统一框架FC-CLIP正是为解决这一关键问题。
FC-CLIP在共享的冻结卷积CLIP backbone上无缝集成了掩码生成和CLIP分类。这种设计基于以下核心思路:
冻结的CLIP backbone保留了预训练的图像文本对齐,支持开放词汇分类。
添加轻量级解码器后,CLIP backbone可作为强大的掩码生成器。
卷积CLIP在输入尺寸放大时泛化能力提升,适合密集预测任务。
单一冻结卷积CLIP backbone带来极简但高效的设计。相较先前方法,FC-CLIP参数和计算量大幅减少,训练时间也更短,实用性强。在多个数据集上,FC-CLIP都显著提升了状态转换水平。
FC-CLIP开创性的单阶段框架统一了掩码生成和文本匹配分类,具有巨大的潜力推动全景分割向开放词汇场景扩展,实现真正的图像理解和交互。这项突破性工作为端到端的单阶段全景分割方法提供了范例,值得进一步改进和扩展。
抖音货架到底值不值得做?服务商:我们准备放弃了......
为了货架电商,抖音投入百亿扶持,将其当做最重要的运营方向。但某入局了货架电商的服务商,却说“要放弃了”。近期,某抖音服务商跟新播场分享了他们做抖音货架电商的经历。他表示,综合来看,无论是现在被鼓吹的商品卡,还是行业讨论了很久的商城,对于他们而言很难有增长效果。实际上,如今行业内不看好抖音货架电商的还大有人在,问题大多围绕在价格内卷、会让兴趣电商失去竞争力等。站长网2023-07-06 22:09:460002支付宝能找工作了:首批上线5万个高薪岗位 年薪70万 占比超一半
快科技5月30日消息,支付宝上能找高薪工作了!。职场社区平台脉脉旗下脉脉高聘”正式牵手支付宝,双方将围绕支付宝小程序、就业聚合频道、直播等维度展开合作。首批在支付宝就业频道上线5万个高薪正式岗位,年薪70万以上岗位占比超一半,包含技术、设计、产品、电商、人事等多个岗位类型。工作地覆盖北上广深等一线城市及重庆、武汉、西安等多个新一线城市。现在,上支付宝搜脉脉高聘”即可了解相关岗位信息。站长网2023-05-30 21:19:390002谷歌DeepMind提出AGI能力与行为分类框架
**划重点:**1.🌐谷歌DeepMind团队提出"LevelsofAGI"框架,类似自动驾驶级别,用于分类人工通用智能(AGI)模型及其前身的技能和行为。2.📈框架基于自主性、普适性和性能等三个维度,提供了一个共同词汇,便于比较模型、评估风险,并跟踪通向人工智能的进展。0000苹果语音助手功能将重大升级:Hey Siri成历史
快科技6月4日讯,苹果WWDC开发者大会将于北京时间6月6日凌晨1点举办。除了万众期待的iOS17操作系统、所谓的AR/MR头戴等设备,名记MarkGurman爆料称,苹果还将对语音助手Siri做出重大调整。简言之,沿用多年的Heysiri”唤醒词将改为Siri”,同时,用户可以在Siri命令之后直接跟上命令语句。站长网2023-06-05 19:28:220001支持百亿参数大模型、卢伟冰现场官宣小米首发,高通骁龙8s Gen3发布
高通又往中高端手机市场扔下一颗「重磅炸弹」。高通最强手机芯片骁龙8Gen3迎来了一款与它同源的「旗舰级」产品。3月18日,高通正式推出了第三代骁龙8s移动平台(骁龙8sGen3),凭借旗舰级的CPU、GPU和AI性能,全方位支持了强大的终端侧生成式AI功能、始终感知的ISP、超沉浸的移动游戏体验、突破性连接能力和无损高清音频。站长网2024-03-19 11:58:280000