谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频
划重点:
1. 💻 Google Research团队推出VideoPoet,一款大型语言模型,旨在解决视频生成领域的挑战。
2. 🌈 VideoPoet支持多种视频生成任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。
3. 🚀 与传统扩散模型不同,VideoPoet将多个视频生成功能融合在一个语言模型中,提供更高的集成度和学习能力。
Google Research最近发布了一款名为VideoPoet的大型语言模型(LLM),旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。现有领先模型要么生成较小的运动,要么在生成较大运动时出现明显的伪影。
VideoPoet的创新之处在于将语言模型应用于视频生成,支持多种任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。与当前主流的扩散模型不同,VideoPoet将这些视频生成功能融合在一个大型语言模型中,而不是依赖于分别针对每个任务进行训练的组件。
该模型通过多个分词器(MAGVIT V2用于视频和图像,SoundStream用于音频)进行训练,以学习跨视频、图像、音频和文本模态的知识。通过将模型生成的令牌转换为可视化表示,VideoPoet能够输出动画、风格化视频,甚至生成音频。模型支持文本输入,以指导文本到视频、图像到视频等任务的生成。
为了展示VideoPoet的多功能性,研究人员提供了一些生成示例。
文字生成视频
模型能够根据文本提示生成可变长度的视频,也可以将输入图像转化为动画视频。此外,模型还具备视频风格化的能力,通过输入光流和深度信息,以及一些额外的文本提示,生成独特风格的视频。最令人印象深刻的是,VideoPoet还可以生成音频,实现了从单一模型生成视频和音频的目标。
图像生成视频
视频风格化
可生成音频
研究人员指出,VideoPoet的训练方式使其具有生成较长视频的潜力,通过在上一个视频的最后1秒的基础上预测下一个1秒,可以实现视频的不断延伸。此外,模型还支持对已生成视频进行交互式编辑,用户可以改变物体的运动,实现不同的动作,从而具有高度的编辑控制。
评价结果
研究人员使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,我们在各种不同的提示下运行了所有模型,没有挑选示例,并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。
文本保真度
基于上述情况,平均而言,人们选择 VideoPoet 中24-35% 的示例作为比竞争模型更好的跟随提示,而竞争模型的这一比例为8-11%。评分者还更喜欢 VideoPoet 中41-54% 的示例,因为它们的动作更有趣,而其他模型的这一比例为11-21%。
VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。
官方博客:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
项目网址体验:https://top.aibase.com/tool/videopoet
“天猫精灵”拟更名XGENIE 将千万终端升级接入“大模型”
据上证报消息,9月15日,有消息称阿里巴巴旗下“天猫精灵”将更名,已有XGENIE品牌字样的新品在部分渠道露出。对此,内部人士处确认,9月19日确实将发布新品牌新产品。该负责人处表示,新品发布同时,天猫精灵已发售产品服务不受影响,还会有至少千万量级的已发售终端,通过线上升级接入“大模型”和多项AIGC能力。站长网2023-09-15 16:17:280001华晨宝马CEO回应BBA退出价格战:确保合作伙伴都能赚到足够的钱 活到未来
快科技7月21日消息,针对一线豪华品牌BBA(奔驰,宝马和奥迪)退出价格战一事,华晨宝马CEO戴鹤轩今天给出了回应。戴鹤轩表示:价格是由经销商作为独立的经营主体去确定的,宝马会与上下游的伙伴都保持密集的讨论,看看可持续的商业模式应该如何进行,以确保各方合作伙伴都能赚到足够的钱,能够活到未来。”0000视频号小店30元及以下商品需设置包邮服务
日前,腾讯发布公告称,为营造视频号带货良好环境,规范商家经营行为,保障用户合法权益;现平台针对低价商品调整发布规范,30元(包含)以下的商品需要设置包邮服务(包括港澳台、海外和偏远地区)。腾讯提醒,即日起至2023年6月20日,商家需自行检查小店店铺已上架的商品,如有低于30元且没有设置包邮的商品需进行修改;如商家未在规定时间内整改,平台将按照违规商品下架,并不能在原有链接上修改重新提交审核。站长网2023-06-13 22:27:210000上百度看2024总台春晚!百度与央视春晚达成版权合作
百度APP与中央广播电视总台宣布达成2024年春节联欢晚会的官方版权合作,为广大观众带来全新的春晚观赏体验。除夕夜,观众只需在百度APP搜索“春晚”,即可轻松跳转至总台春晚专属搜索会场,畅享央视龙年春晚的在线观看。站长网2024-02-07 08:15:130000专家:即使国产AI芯片单个算力不强 也能通过综合手段提升算力
快科技7月6日消息,世界人工智能大会(WAIC)在上海盛大举行,会议主题为智造数字劳动力,打造新质生产力”。壁仞科技副总裁兼AI软件首席架构师丁云帆在论坛中发表演讲,提出当前解决算力瓶颈问题需要综合考虑硬件集群算力、软件有效算力以及异构聚合算力三个维度。他强调,只要这三个维度的工作得到有效推进,即使国产AI芯片的单个算力相对较弱,也能通过综合手段提升整体算力,以满足国内大模型训练的需求。0000