登陆注册

全能通用视觉编码器VideoPrism

  • 谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

    【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。最近,来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。它能够通过单一冻结模型,处理各种视频理解任务。
    站长网2024-02-26 14:05:59
    0000