谷歌推大语言模型VideoPoet：文本图片皆可生成视频和音频

站长网2023-12-20 10:39:020阅

划重点:

1. 💻 Google Research团队推出VideoPoet，一款大型语言模型，旨在解决视频生成领域的挑战。

2. 🌈 VideoPoet支持多种视频生成任务，包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。

3. 🚀 与传统扩散模型不同，VideoPoet将多个视频生成功能融合在一个语言模型中，提供更高的集成度和学习能力。

Google Research最近发布了一款名为VideoPoet的大型语言模型（LLM），旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型，但在生成连贯的大运动时仍存在瓶颈。现有领先模型要么生成较小的运动，要么在生成较大运动时出现明显的伪影。

VideoPoet的创新之处在于将语言模型应用于视频生成，支持多种任务，包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。与当前主流的扩散模型不同，VideoPoet将这些视频生成功能融合在一个大型语言模型中，而不是依赖于分别针对每个任务进行训练的组件。

该模型通过多个分词器（MAGVIT V2用于视频和图像，SoundStream用于音频）进行训练，以学习跨视频、图像、音频和文本模态的知识。通过将模型生成的令牌转换为可视化表示，VideoPoet能够输出动画、风格化视频，甚至生成音频。模型支持文本输入，以指导文本到视频、图像到视频等任务的生成。

为了展示VideoPoet的多功能性，研究人员提供了一些生成示例。

文字生成视频

模型能够根据文本提示生成可变长度的视频，也可以将输入图像转化为动画视频。此外，模型还具备视频风格化的能力，通过输入光流和深度信息，以及一些额外的文本提示，生成独特风格的视频。最令人印象深刻的是，VideoPoet还可以生成音频，实现了从单一模型生成视频和音频的目标。

图像生成视频

视频风格化

可生成音频

研究人员指出，VideoPoet的训练方式使其具有生成较长视频的潜力，通过在上一个视频的最后1秒的基础上预测下一个1秒，可以实现视频的不断延伸。此外，模型还支持对已生成视频进行交互式编辑，用户可以改变物体的运动，实现不同的动作，从而具有高度的编辑控制。

评价结果

研究人员使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现，以将结果与其他方法进行比较。为了确保中立的评估，我们在各种不同的提示下运行了所有模型，没有挑选示例，并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

文本保真度

基于上述情况，平均而言，人们选择 VideoPoet 中24-35% 的示例作为比竞争模型更好的跟随提示，而竞争模型的这一比例为8-11%。评分者还更喜欢 VideoPoet 中41-54% 的示例，因为它们的动作更有趣，而其他模型的这一比例为11-21%。

VideoPoet作为大型语言模型，通过集成多种视频生成任务，为零镜头视频生成提供了新的可能性，为艺术创作、影视制作等领域带来了潜在的创新机遇。

官方博客:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

项目网址体验:https://top.aibase.com/tool/videopoet

谷歌推大语言模型VideoPoet文本图片皆可生成视频和音频

0000

评论列表

共(0)条

相关推荐

站长资讯
Meta：生成式 AI 有助于实现公司的元宇宙目标而非取代
站长之家(ChinaZ.com)5月17日消息:Meta希望通过将元宇宙作为一个帮助培训劳动力的工具来重新激发对元宇宙的兴趣，这显示了这家社交媒体巨头在虚拟现实领域的雄心壮志，尽管人工智能在其中占据重要地位。Meta全球事务主席NickClegg推崇虚拟现实（VR）和增强现实（AR）在培训和教育领域中的「变革性」作用。
站长网2023-05-17 14:37:20
0000
站长资讯
英伟达被曝开发 ARM 架构 PC 芯片，手握 x86 的英特尔坚称：ARM 对 PC 影响“微不足道”！
上周，在英特尔第三季度财报的电话会议上，CEOPatGelsinger谈到x86与ARM的竞争格局时，向投资者保证:“ARM和Windows客户端替代产品在PC业务中一直处于微不足道的地位”，“我们并不认为这些产品在整体上有多大的潜在威胁”。
站长网2023-10-31 09:20:57
0000
站长资讯
鸿海董事长刘扬伟：预计今年下半年 AI 服务器市场增长可能达到 100% 以上
鸿海董事长刘扬伟周三在年度股东大会上说，鸿海的最新AI服务器搭载了英伟达的芯片，2022年鸿海服务器营收达到1.1万亿元新台币（约358亿美元），占据全球四成市场。刘扬伟表示，随着ChatGPT等AI技术使用率越来越高，预计今年下半年AI服务器的市场增长可能达到100%以上。同时，他还表示，今年鸿海三大运营方向是电动车、半导体与低轨卫星。
站长网2023-06-01 14:54:58
0000
站长资讯
ChatGPT现在允许用户直接从 Google Drive、Microsoft OneDrive 导入文件
划重点:⭐OpenAI的ChatGPT现已升级，允许用户直接从GoogleDrive和MicrosoftOneDrive导入文件。⭐用户可通过点击界面底部文本输入栏左侧的小纸夹图标找到此功能。⭐该功能针对ChatGPTPlus、Team和Enterprise用户，并适用于新的GPT-4o模型和旧模型。
站长网2024-05-17 14:25:45
0000
站长资讯
怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相
在ChatGPTAPI中，系统提示是一项很有亮点的功能，它允许开发人员控制LLM输出的「角色」，包括特殊规则和限制。系统提示中的命令比用户输入提示中的命令要有效得多，这让开发人员拥有了更大的发挥空间，而不是像现在使用ChatGPT网页应用程序和移动应用程序那样仅仅使用用户提示。举个例子，一个很有趣的Trick就是「给小费」。
站长网2024-03-10 18:00:29
0001