新加坡南洋理工大学出品!大规模视频分割数据集MeViS,自动识别视频动态主体
文章概要:
1) MeVIS数据集包含2006段视频,强调目标物体的运动属性,不能仅从单帧识别。
2) 提出LMPM基准方法,利用语言理解和运动评估找到视频中语言描述的目标物体。
3) 研究为发展更高级的语言引导视频分割算法奠定基础。
当前用于引用视频对象的数据集通常强调突出的对象并依赖于具有许多静态属性的语言表达。这些属性允许仅在单帧中识别目标对象。然而,这些数据集忽视了运动在语言引导视频对象分割中的重要性。
新加坡南洋理工大学研究人员发表了一篇AI论文,提出了一个大规模视频分割基准数据集MeVIS(Motion Expression Video Segmentation)。简单的说,MeViS是一个大规模的视频分割数据集,它让计算机能够根据描述对象运动的自然语言语句来分割和跟踪视频中的目标对象。
MeViS 数据集包含2,006个视频和8,171个对象,并提供了28,570个运动表达式来引用这些对象。数据集示例中,表达主要集中在运动属性,被指代的目标物体无法仅通过观察单帧进行识别。上图显示了 MeViS 中的表达式主要关注运动属性,仅通过检查单帧无法识别所涉及的目标对象。比如给计算机一个视频和一个句子“飞离树枝的鸟”,它就可以在整个视频中找出符合这个句子描述的鸟,并把这只鸟在每一帧图像中的位置分割出来。

MeViS不同于以前的数据集,以前的数据集更关注静态的特征比如颜色、形状等来分割,而MeViS关注的是运动信息。例如视频里有三只外观很像的鸟,只有根据它们的飞行动作才能区分出目标鸟。
研究人员采取了一些步骤,确保MeVIS数据集强调视频的时间运动:
首先,仔细选择视频内容,其中包含与运动共存的多个对象,并排除具有静态属性可以轻松描述的孤立对象的视频。
其次,在仅通过动作词就可以明确描述目标对象的情况下,优先考虑不包含静态线索(例如类别名称或对象颜色)的语言表达。
除了提出MeVIS数据集,研究人员还给出了一个基准方法LMPM(Language-guided Motion Perception and Matching)来解决这个数据集提出的挑战。他们的方法包含生成语言条件查询来在视频中识别可能的目标物体,使用更稳健高效的对象嵌入来表示这些对象,应用运动感知捕捉对象嵌入的时间上下文,从而建立视频运动动力学的整体理解,以掌握视频中的瞬时运动和持续运动。
然后,他们比较语言特征与预测的对象运动,找到语言表达中提到的目标物体。这种方法有效结合了语言理解和运动评估来处理复杂的数据集任务。
这项研究为开发更高级的语言引导视频分割算法奠定了基础。它向更具挑战性的方向开辟了道路,如探索更好的理解运动和建模技术、创建更高效的模型以减少冗余检测物体、设计有效的跨模态融合方法等。解决这些挑战需要推动语言引导视频分割领域的当前最新技术。
项目网址:
https://github.com/henghuiding/MeViS
https://henghuiding.github.io/MeViS/
论文:https://arxiv.org/abs/2308.08544
陶哲轩点破「天机」:不懂数学别想靠ChatGPT飞升!
【新智元导读】冲锋在AI辅助数学研究第一线的陶哲轩,近日又有「神总结」:ChatGPT提升的,是我们在编码、图表等次要任务上的能力;而真要搞好数学研究,基础不扎实的话,AI也是没用的。使用ChatGPT一年半了,陶哲轩的感想如何?最近,一直冲锋在探索AI辅助研究功能前线的数学大神陶哲轩,总结了ChatGPT对自己数学研究过程的帮助。站长网2024-07-08 17:46:270000Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”
要点:Meta发布了名为FACET的数据集,用于探测计算机视觉模型对某些“类别”人群的偏见。FACET包含32000张图片,50000人的图像,标注了职业和活动“类别”,以及人口统计和身体特征。FACET可用于测试模型在不同人口属性上的分类、检测、分割和定位任务的公平性。站长网2023-09-01 14:28:160000清华芯片新突破登Science,获评“存算一体领域重大进展”!基于类脑架构实现片上快速AI学习
清华最新芯片成果,登上Science!全球首颗全系统集成、支持高效片上学习的忆阻器存算一体芯片,正式问世。它集合了记忆、计算和学习能力。能在片上快速完成不同任务的模型训练。而能耗仅为先进工艺下ASIC的1/35,能效有望提升75倍,同时兼顾保护隐私。这就是由清华大学集成电路学院吴华强教授、高滨副教授团队带来的最新成果。相关话题已经登顶知乎热榜。Science编辑评价其为:站长网2023-10-12 11:23:530000百度文心一格推出图片涂抹编辑、风格叠加等AIGC功能
百度宣布,AI作画产品文心一格“二次编辑”功能上线。通过AI技术结合创作者的需求对图像进行二次编辑优化,使得画作更加精准的符合用户创意需求,创作优质画作。据介绍,用户只需通过涂抹等形式确定原画作中待编辑和加工的区域;接着调用人工智能AI编辑功能,获取整幅画作的编辑信息;最后对编辑区域的内容进行与原画风格一致的补全编辑,并对补全画作连接处进行平滑处理,最终即可生成满足用户需求和审美的理想画作。站长网2023-07-05 20:58:0200003年前花17亿美金收购Azar,Match Group如今失望了吗
2021年2月,MatchGroup宣布以17.3亿美金的价格收购了视频聊天应用Azar和直播产品Hakuna的母公司HyperConnect,这笔交易最终在当年6月顺利完成。这笔交易在当时引起了海外媒体的广泛讨论,一是收购价格为MatchGroup收购史上之最,要知道这家巨头在2017年曾想以4.5亿美元收购行业老二Bumble(后遭拒绝),可见这笔收购在其心中分量;站长网2024-01-30 09:23:230000