FC-CLIP彻底改变全景分割:统一的单级AI 框架
要点:
1、全景分割将语义分割和实例分割相结合,对图像进行精细分割标注,但受限于数据集标注成本。
2、FC-CLIP通过冻结卷积CLIPbackbone实现掩码生成和CLIP文本对齐分类的单阶段统一,突破闭词汇限制。
3、FC-CLIP设计简单高效,参数和计算量都大大减少,性能显著提升,可扩展到开放词汇场景。
全景分割是将图像分割成有意义的部分或区域的基础计算机视觉任务,对各种应用如医学图像分析和自动驾驶具有关键作用。全景分割将语义分割的对每个像素进行对象分类,和实例分割的对同类不同实例进行区分相结合,目标是为每个实例生成不重叠的掩码并赋予类别标签。
多年来,研究者不断提升全景分割模型性能,重点关注全景质量指标。但是基于闭词汇的限制严重制约了这些模型的实际应用,因为数据集细颗粒度标注的高成本限制了语义类别数目。这成为全景分割应用的关键难题。
项目地址:https://github.com/bytedance/fc-clip
计算机视觉社区探索开放词汇分割来克服闭词汇的限制。这种范式利用单词的文本嵌入作为类别标签嵌入,大大增强了模型处理更广泛类别的能力。CLIP等多模态预训练模型利用其从海量互联网数据中学习对齐图像文本特征表示的能力,在开放词汇分割中显示出巨大潜力。
近期的两阶段方法如SimBaseline和OVSeg改编了CLIP进行开放词汇分割,但固有的低效和分割与分类不一致的问题仍然存在。提出单阶段统一框架FC-CLIP正是为解决这一关键问题。
FC-CLIP在共享的冻结卷积CLIP backbone上无缝集成了掩码生成和CLIP分类。这种设计基于以下核心思路:
冻结的CLIP backbone保留了预训练的图像文本对齐,支持开放词汇分类。
添加轻量级解码器后,CLIP backbone可作为强大的掩码生成器。
卷积CLIP在输入尺寸放大时泛化能力提升,适合密集预测任务。
单一冻结卷积CLIP backbone带来极简但高效的设计。相较先前方法,FC-CLIP参数和计算量大幅减少,训练时间也更短,实用性强。在多个数据集上,FC-CLIP都显著提升了状态转换水平。
FC-CLIP开创性的单阶段框架统一了掩码生成和文本匹配分类,具有巨大的潜力推动全景分割向开放词汇场景扩展,实现真正的图像理解和交互。这项突破性工作为端到端的单阶段全景分割方法提供了范例,值得进一步改进和扩展。
YouTube推出AI生成的测验功能,助力教育视频学习
YouTube正在其移动应用程序上尝试使用人工智能生成的测验,旨在帮助观众更多了解教育视频中涉及的主题。该功能还将帮助视频分享平台更好地了解每个视频对某一主题的覆盖程度。这一AI生成的测验功能已经全球范围内向部分观看教育视频的用户推出。该测验功能仅适用于一部分英语内容,在主页上以最近观看视频下的链接形式出现。尽管并非YouTube的所有实验都会在平台上推出,但我们很有兴趣看到这个是否能够留存。站长网2023-07-10 16:49:240002三星智能指环 Galaxy Ring 不太可能在 2024 年第一季度随 Galaxy S24 系列正式上市
站长之家(ChinaZ.com)10月8日消息:据韩国媒体TheElec报道,传闻中将于2024年1月与GalaxyS24系列一同发布的三星GalaxyRing,现在预计将在2024年第三季度或2025年第一季度发布。站长网2023-10-08 17:36:560000印度发布新规 要求人工智能公司发布模型前获得政府批准
站长之家(ChinaZ.com)3月4日消息:近日,印度电子和信息技术部本周向科技公司发布了一项新规,要求“重要”的人工智能公司在推出新模型之前需获得政府许可。该规定引发了科技界的强烈反对,许多人担心这会扼杀创新。印度风险投资公司和初创公司警告说,这种监管将损害印度在全球科技领域的竞争力。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-03-04 20:04:270000华晨宇公司新增人工智能APP应用软件开发业务
企查查APP显示,近日,北京宇屹文化传媒有限责任公司发生工商变更,经营范围新增人工智能应用软件开发;专业设计服务;图文设计制作等。北京宇屹文化传媒有限责任公司成立于2017年11月,华晨宇为执行董事、经理、法定代表人、实际控制人,持股比例达99.90%。站长网2023-07-31 11:19:590000芝加哥大学研究人员推出3D画笔:使用文本生成局部风格化纹理的AI方法
**划重点:**1.🌐3D画笔通过文本描述自动为网格上的局部语义区域着色,实现了直接在网格上进行纹理编辑的目的。2.🤖研究团队采用级联分数蒸馏(CSD)和神经场来提高局部纹理区域的细节和分辨率。3.🚀该方法使用在3D表面上定义的多层感知器,创建产生在3D中平滑变化的神经纹理,减少了纹理的噪点,并具有超分辨率能力。站长网2023-11-27 10:27:530000