AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
【新智元导读】首个高质量文本转视频开源模型Zeroscope,仅需8G显存就能用!
文生图模型Stable Diffusion开源后,将「AI艺术」彻底平民化,只需一张消费级显卡即可制作出非常精美的图片。
而文本转视频领域,目前质量较高的只有Runway前不久推出的商用Gen-2模型,开源界还没有一个能打的模型。
最近,Huggingface上有作者发布了一个文生视频模型Zeroscope_v2,基于17亿参数量的ModelScope-text-to-video-synthesis模型进行二次开发。
模型链接:https://huggingface.co/cerspense/zeroscope_v2_576w
相比于原版本,Zeroscope生成的视频没有水印,并且流畅度和分辨率都得到了提升,适配16:9的宽高比。
开发者cerspense表示,他的目标就是和Gen-2进行开源较量,即提高模型质量的同时,还能免费供大众使用。
Zeroscope_v2包括两个版本,其中Zeroscope_v2567w可以快速生成576x320像素分辨率、帧率为30帧/秒的视频,可用于视频概念的快速验证,只需要约7.9GB的显存即可运行。
Zeroscope_v2XL可以生成1024x576分辨率的高清视频,大约需要15.3GB的显存。
Zeroscope还可以与音乐生成工具MusicGen一起使用,快速制作一个纯原创短视频。
Zeroscope模型的训练用到了9923个视频片段(clip)以及29769个标注帧,每个片段包括24帧。偏移噪声包括视频帧内对象的随机移位、帧定时(frame timings)的轻微变化或微小失真。
训练期间引入噪声可以增强模型对数据分布的理解,从而可以生成更多样化的逼真视频,并更有效地解释文本描述中的变化。
使用stable diffusion webui
在Huggingface上下载zs2_XL目录下的权重文件,然后放到stable-diffusion-webui\models\ModelScope\t2v目录下即可。
在生成视频时,推荐的降噪强度值为0.66到0.85
使用Colab
笔记链接:https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing
先点击Step1下的运行按钮,等待安装,大约需要3分钟;
当按钮旁边出现绿色复选标记时,继续执行下一步。
点击想要安装模型附近的运行按钮,为了能够在Colab中快速获得3秒左右的剪辑视频,更推荐使用低分辨率的ZeroScope模型(576或448)。
如果相运行更高分辨率模型(Potat1或ZeroScope XL),运行也会更费时间,需要做出权衡。
再次等待复选标记出现,继续执行下一步。
选择在Step2中安装并希望使用的模型型号,对于更高分辨率的模型,推荐下面的配置参数,不需要太长的生成时间。
然后为目标视频效果输入提示词,也可以输入否定提示(negative prompts),再按下运行按钮。
等待一会后,生成的视频就会被放置在outputs目录下。
extremely detailed, Futuristic Cityscape, blade runner, extremely cloudy, awardwinning, best quality,8k
非常详细,未来城市景观,叶片亚军,极端多云,获奖,最好的质量,8k
目前来说,文生视频领域仍处于起步阶段,即便是最好的工具也只能生成几秒钟的视频,并且通常存在较大的视觉缺陷。
但其实文生图模型最初也面临着类似的问题,但仅仅几个月后就实现了照片级真实感。
不过与文生图模型不同的是,视频领域在训练和生成期间所需要的资源都要更比图像更多。
虽然谷歌已经研发出了Phenaki和Imagen Video模型,可以生成高分辨率、更长、逻辑连贯的视频片段,但公众无法使用到这两个模型;Meta的Make-a-Video模型也同样没有发布。
目前可用的工具仍然只有Runway的商用模型Gen-2,此次Zeroscope的发布也标志着文生视频领域第一个高质量开源模型的出现。
参考资料:
https://the-decoder.com/zeroscope-is-a-free-text-to-video-model-that-runs-on-modern-graphics-cards/
Deepdub推出AI音视频本地化平台Deepdub Go 提供65种语言配音
Deepdub推出DeepdubGo,提供AI音视频配音与语言本地化服务。该平台旨在为独立游戏工作室、广告机构、在线学习平台和内容创作者提供65种语言的配音服务。DeepdubGo使用AI技术,允许用户使用自己的声音进行配音,并通过情感引导AI控制声音的情感表达。站长网2023-07-08 02:52:460001抖音:去年6月至今处置宣扬未成年不良行为直播间24916个
抖音公布数据称,2022年6月份至今,抖音直播处置宣扬未成年不良行为的直播间24916个,处置借未成年直播牟利账号1641个,封禁诱导未成年消费账号390个抖音直播表示,关爱保护未成年人健康成长是全社会的共同责任,抖音直播也将切实履行主体责任,维护平台管理秩序,进一步加强对直播账号、内容的管理,建设健康、优质、多元的网络生态,与厂大网友共同守护未成年人群体。站长网2023-07-14 16:01:230002对话网易伏羲赵增:开源VS自研?哪条路是通向AIGC的捷径?|WAIC2023
从去年底到现在,国内外肉眼可见地涌现出了一批文生图公司,这背后与基础架构开源有很大关系。2022年8月,Stability.AI在GitHub上公开开源了StableDiffusion模型的代码和训练数据集;当月底,基于StableDiffusion的图像生成工具StableDiffusionwebUI也正式开源发布。(StableDiffusion模型基本架构图源:网络)站长网2023-07-18 09:32:560000腾讯主导发布2023游戏安全白皮书: PC游戏外挂增长超50%
快科技1月19日消息,据腾讯游戏安全官微介绍,近日腾讯游戏安全联合腾讯安全、伽马数据、DataEye发布了《2023游戏安全白皮书》。这是腾讯游戏安全连续第3年主导发布年度游戏安全白皮书,与行业分享在游戏安全对抗中的各类实战经验。其中显示,2023年1-10月腾讯PC游戏外挂保持着高位激烈对抗态势,外挂样本数量按月均值达到3393款同比2022年月均值2278款增长49%。站长网2024-01-19 09:28:230000OPPO Find X7宣布支持AI通话摘要 通话结束即可一键生成
今日,OPPO官方宣布,FindX7成为首款支持AI通话摘要的手机。用户在通话结束后,只需一键,即可生成摘要,并自动创建待办事项和提醒。此外,OPPO表示,在人工智能领域持续发力,最新推出的安第斯大模型拥有高达70亿的参数。这款大模型为全新小布助手赋予了强大的功能,支持AI文章摘要、小布问答、AIGC消除以及AI通话摘要等。并准备了AI画师、小布照相馆、小布连麦等100多种功能。站长网2024-01-08 15:58:560000