Nvidia公布新文本转视频模型 基于Stable Diffusion开发!
Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。
该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以512x1024像素的分辨率生成几分钟的汽车行驶视频,在大多数基准测试中达到SOTA。

注:图片来自Nvidia Video LDM项目截图
除了这个与自动驾驶研究特别相关的演示之外,研究人员还展示了如何将现有的Stable Diffusion 型转换为视频模型。
该团队在微调步骤中用视频数据短时间训练Stable Diffusion,然后在网络中每个现有空间层后面添加额外的时间层,并用视频数据对其进行训练。此外,该团队还训练了时间稳定的放大器,以根据文本提示生成1,280x2,048分辨率的视频。
以 Stable Diffusion 作为视频模型的基础,团队无需从头开始训练新模型,可以从现有的能力和方法中获益。例如,尽管使用的 WebVid-10M 数据集仅包含真实世界的视频,基于底层的Stable Diffusion模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。
研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。,生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用 DreamBooth 进行视频创作。
注:Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型。
Nvidia Video LDM项目页面上有更多示例,不过该模型目前尚未对外开放。
项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
SensorTower:《鸣潮》进入5月全球移动游戏下载增长榜前三
今日,SensorTower发布《2024年5月全球热门移动游戏下载量TOP10》。站长网2024-06-25 12:08:330000抖音:去年6月至今处置宣扬未成年不良行为直播间24916个
抖音公布数据称,2022年6月份至今,抖音直播处置宣扬未成年不良行为的直播间24916个,处置借未成年直播牟利账号1641个,封禁诱导未成年消费账号390个抖音直播表示,关爱保护未成年人健康成长是全社会的共同责任,抖音直播也将切实履行主体责任,维护平台管理秩序,进一步加强对直播账号、内容的管理,建设健康、优质、多元的网络生态,与厂大网友共同守护未成年人群体。站长网2023-07-14 16:01:230002游戏时光VGtime公告:离职员工发布虚假内容 将继续为玩家提供服务
今日午间,针对“游戏时光VGtime编辑全员离职”的报道,VGtime游戏时光的运营公司吟游(上海)文化传播有限公司发布公告称,为打造更好的社区服务,公司对运营团队进行了调整,离职员工利用官方账号发布信息为虚假内容,将启用法律程序维护公司正当权益。吟游(上海)文化传播有限公司还表示,“VGtime游戏时光”是长期运营的社区,将持续为玩家提供服务。站长网2023-04-24 14:20:040002全民山寨时代,还会有多少个周口杰伦和反诈小陈?
最近,山寨网红悄然成为了短视频软件中的全民流量密码。与以往曾经在短视频中爆火的个别网红,诸如模仿鹿晗的“鹿哈”、cosplay紫薇的“小林心如”、长相酷似张翰的“佛山电翰”等等不同的是,这一次的“明星模仿秀”是一场极其盛大的全民娱乐。不仅模仿者甚众、被模仿者也囊括了三教九流。0001Meta 将向微软、亚马逊或谷歌等大型云提供商收取转售 Llama 2 的费用
Meta计划从主要云计算公司的Llama2人工智能大型语言模型转售中获利。Meta首席执行官马克·扎克伯格在季度收益电话会议上表示:「如果你是像微软、亚马逊或谷歌这样的公司,并且基本上会转售服务,我们认为我们应该获得部分收入。」他继续说道:「我认为这在短期内不会带来大量收入,但从长远来看,希望能有所回报。」站长网2023-07-27 10:35:270001