Nvidia公布新文本转视频模型 基于Stable Diffusion开发!
Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。
该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以512x1024像素的分辨率生成几分钟的汽车行驶视频,在大多数基准测试中达到SOTA。
注:图片来自Nvidia Video LDM项目截图
除了这个与自动驾驶研究特别相关的演示之外,研究人员还展示了如何将现有的Stable Diffusion 型转换为视频模型。
该团队在微调步骤中用视频数据短时间训练Stable Diffusion,然后在网络中每个现有空间层后面添加额外的时间层,并用视频数据对其进行训练。此外,该团队还训练了时间稳定的放大器,以根据文本提示生成1,280x2,048分辨率的视频。
以 Stable Diffusion 作为视频模型的基础,团队无需从头开始训练新模型,可以从现有的能力和方法中获益。例如,尽管使用的 WebVid-10M 数据集仅包含真实世界的视频,基于底层的Stable Diffusion模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。
研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。,生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用 DreamBooth 进行视频创作。
注:Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型。
Nvidia Video LDM项目页面上有更多示例,不过该模型目前尚未对外开放。
项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
小米社区内测 AI 百宝箱功能 仅限小米 14 系列用户报名
昨日,小米社区宣布启动了一项激动人心的内测活动——“AI百宝箱”,这项创新功能目前仅面向小米14/Pro开发版用户开放申请。此次内测为用户提供了一个丰富的AI工具大集合,首个惊艳上线的功能即为AI惊喜壁纸,广大用户可积极申请参与体验。站长网2024-04-19 14:08:180000新款iPad发布时间公布:最快本月发布 搭载M3芯片
知名科技记者马克·古尔曼(MarkGurman)近日为我们带来了令人振奋的消息。据他透露,苹果正在紧锣密鼓地筹备一场平板电脑的盛宴,计划于3月底至4月间推出全新的iPadPro和iPadAir系列平板电脑。这场盛宴不仅仅局限于平板本身,苹果还同步推出了专为iPad设计的新款妙控键盘和ApplePencil,以提供更加完善的用户体验。站长网2024-03-12 11:50:390000生成式AI预计到2026年将发展成价值1000亿美元行业
划重点:1.💰生成式人工智能市场预计在未来两年内增长65%,并在2026年成为价值1000亿美元的行业。2.🚀OpenAI的ChatGPT在短短两个月内成为史上增长最快的应用程序,表明生成式人工智能具有巨大的潜力。3.🌍全球对生成式人工智能的需求持续增长,美国、中国和德国是该市场的主要增长国家。站长网2024-01-30 15:41:250000飞出个未来》新季探索NFT和AI,幽默感失衡
经典科幻动画《飞出个未来》在Hulu的复兴中迎来了第12季,但新一季在尝试与现代话题接轨时似乎失去了平衡。剧集尝试解释非同质化代币(NFT)和人工智能(AI),但效果并不理想。站长网2024-07-30 08:45:460000Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon:更高效先进
Meta正在继续推进对新形式生成式人工智能模型的研究,并公布了最新成果,名为CM3leon(发音类似于「chameleon(变色龙)」)。图片来自MetaCM3leon是一个用于文本到图像创建和图像到文本创建的多模态基础模型,对于自动生成图像标题非常有用。站长网2023-07-18 03:16:570000