FC-CLIP彻底改变全景分割:统一的单级AI 框架
要点:
1、全景分割将语义分割和实例分割相结合,对图像进行精细分割标注,但受限于数据集标注成本。
2、FC-CLIP通过冻结卷积CLIPbackbone实现掩码生成和CLIP文本对齐分类的单阶段统一,突破闭词汇限制。
3、FC-CLIP设计简单高效,参数和计算量都大大减少,性能显著提升,可扩展到开放词汇场景。
全景分割是将图像分割成有意义的部分或区域的基础计算机视觉任务,对各种应用如医学图像分析和自动驾驶具有关键作用。全景分割将语义分割的对每个像素进行对象分类,和实例分割的对同类不同实例进行区分相结合,目标是为每个实例生成不重叠的掩码并赋予类别标签。
多年来,研究者不断提升全景分割模型性能,重点关注全景质量指标。但是基于闭词汇的限制严重制约了这些模型的实际应用,因为数据集细颗粒度标注的高成本限制了语义类别数目。这成为全景分割应用的关键难题。

项目地址:https://github.com/bytedance/fc-clip
计算机视觉社区探索开放词汇分割来克服闭词汇的限制。这种范式利用单词的文本嵌入作为类别标签嵌入,大大增强了模型处理更广泛类别的能力。CLIP等多模态预训练模型利用其从海量互联网数据中学习对齐图像文本特征表示的能力,在开放词汇分割中显示出巨大潜力。
近期的两阶段方法如SimBaseline和OVSeg改编了CLIP进行开放词汇分割,但固有的低效和分割与分类不一致的问题仍然存在。提出单阶段统一框架FC-CLIP正是为解决这一关键问题。

FC-CLIP在共享的冻结卷积CLIP backbone上无缝集成了掩码生成和CLIP分类。这种设计基于以下核心思路:
冻结的CLIP backbone保留了预训练的图像文本对齐,支持开放词汇分类。
添加轻量级解码器后,CLIP backbone可作为强大的掩码生成器。
卷积CLIP在输入尺寸放大时泛化能力提升,适合密集预测任务。
单一冻结卷积CLIP backbone带来极简但高效的设计。相较先前方法,FC-CLIP参数和计算量大幅减少,训练时间也更短,实用性强。在多个数据集上,FC-CLIP都显著提升了状态转换水平。
FC-CLIP开创性的单阶段框架统一了掩码生成和文本匹配分类,具有巨大的潜力推动全景分割向开放词汇场景扩展,实现真正的图像理解和交互。这项突破性工作为端到端的单阶段全景分割方法提供了范例,值得进一步改进和扩展。
Relevance AI:让每个团队都拥有自己的AI同事
澳大利亚初创公司RelevanceAI推出了一款低代码平台,旨在帮助企业建立自定义AI团队,提高生产力。该平台已成功筹集1000万美元的A轮融资,由KingRiverCapital领投,全球投资者PeakXV、GalileoVenture和InsightPartners等参与。站长网2023-12-12 10:19:050000北京将加强互联网诊疗监管 严禁使用AI自动生成处方
近日,北京市卫健委制定了《北京市互联网诊疗监管实施办法(试行)》,并向社会公开征求意见,公众可于9月16日前向市卫健委反馈意见。其中,根据办法:医疗机构开展互联网诊疗活动要加强药品管理,处方应由接诊医师本人开具,经药师审核合格后方可生效,严禁使用人工智能等自动生成处方;处方药应当凭医师处方销售、调剂和使用;严禁在处方开具前,向患者提供药品;严禁以商业目的进行统方。站长网2023-08-21 15:04:500000LeCun曝多模态LLM重大缺陷 提出Interleaved-MoF显著增强视觉理解能力
要点:多模态大语言模型(MLLM)在视觉处理方面存在重大缺陷,特别是在处理视觉模式上的性能差距明显。研究团队通过将DINOv2特征与CLIP特征结合的方法提升了多模态大模型的视觉功能,创造性地解决了视觉缺陷问题。提出的「交错特征混合(Interleaved-MoF)」方法在MMVP基准中获得了10.7%的能力增强,显著提升了多模态大模型的视觉基础能力。站长网2024-01-18 14:24:390001生死局后,在线教育公司的花式转型
猿辅导三个字再次隆重地出现在公众面前时,距离那段迷茫岁月已经过去了近两年。2023年5月30日下午,儿童节前夕,猿辅导在北京国贸召开了一场盛大的产品发布会。它面向全国中小学生,推出小猿学练机,主打学习、练习一体化,以练促学,售价3899元。这意味着猿辅导正式宣布进军智能硬件市场,迈出历史性的第一步。站长网2023-06-03 19:04:280000AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
【新智元导读】首个高质量文本转视频开源模型Zeroscope,仅需8G显存就能用!文生图模型StableDiffusion开源后,将「AI艺术」彻底平民化,只需一张消费级显卡即可制作出非常精美的图片。而文本转视频领域,目前质量较高的只有Runway前不久推出的商用Gen-2模型,开源界还没有一个能打的模型。站长网2023-07-05 20:57:590001