AI生成视频入局新卷王，上线不到48小时，网友“大片”刷屏X

站长网2023-11-25 13:43:179阅

AI视频生成工具卷起来了!

本周二，Stability AI低调发布了首个开源AI视频模型Stable Video Diffusion（以下简称SVD），同时还晒出测试数据称，SVD的模型性能碾压RunwayML、Pika Labs等领先的闭源商业模型。

大家可能不认识Stability AI，但一定听过它开发的、同样是开源的热门文生图模型Stable Diffusion（以下简称SD），不少人首次接触AI绘画，甚至AIGC领域，都是从SD开始的。

这次Stability AI下场，一个不小心又开源了AI视频模型，如今已集齐图像、语言、音频等多领域开源大模型，引得一众网友纷纷表示“终于等到你”，SVD上线消息不到48小时，X浏览量就破了80万。

热度拉满，SVD表现如何?

与市面上主流的AI视频生成模型功能类似，SVD支持用户输入文本或是图片来生成视频。

具体效果如何?先感受一波官方放出的亿点点震撼。

文生视频:

图生视频:

针对“图生视频”功能，Stable Video Diffusion提供两种版本模型，用户可以以每秒3~30帧之间的自定义帧速率生成SVD（14帧）和SVD-XT(25帧)的视频。

简单理解，帧率越高，视频画面越流畅。

值得一提是，Stable Video Diffusion还可以根据单个输入图像生成多个视角的视频内容。对创意视频工作者来说，这个功能非常炸裂。

例如，以往需要大费周章实拍的镜头，现在AI用一张图片就能生成多角度的视频素材，极大地节省拍摄人力和时间。

随着Stability AI加入视频生成模型混战，有网友不禁感叹:“先RunwayML，后meta，现在再来一个Stable Diffusion，恐怕不久，用AI就能搞定一整部电影了。”

这不，说来就来，网友们的“大片”已经刷屏X（推特）。

“燃烧的树”:

“会动的梵高星空”

“AI想象的未来世界”:

“3D太阳花”

其中在X上被疯转的一支视频，因为太过丝滑和流畅，真实到让人迷惑是不是信息流里混进了游戏录屏。

该视频出自X博主“fofr”，据他介绍，喂给SVD的参考图是Midjourney生成的，最终生成出来的效果连他自己都大受震撼:“就像真实的游戏镜头。”

拿原始参考图对比视频，不能说很像，只能说一模一样。

头一波尝鲜的X博主“歸藏”用SVD生成了一组包括人像、花卉、自然风景的视频，既有超现实的海上风景，也有像是电影实拍的人物肖像和自然花卉。

一番测试下来，“歸藏”认为SVD可以自动判断哪些地方该动以及应该怎样动，在复杂内容（如人脸）生成上不会出现像Runway一样画面崩坏的问题。

看到这里，“头号AI玩家”也忍不住去HuggingFace浅试了一波。

注意!这不是《塞尔达》游戏录屏，而是SVD根据游戏截图生成的AI视频🔽

为了测测SVD人脸生成怎么样，我先去SD生成了一张图片，输入提示词是:Portrait of an elegant woman。

可以看到，视频在眼睛处理上存在严重失真（前方高能）🔽

不过，调小了动作幅度之后，生成的效果确实不错🔽

目前SVD只发布了基础模型，想要体验SVD又苦于硬件实力不够的玩家，可以上HuggingFace体验SVD的“图生视频”功能。

进入界面，左边拖入图片，右边为生成的视频，点击高级选项，可选择种子（Seed）编号、控制运动幅度以及调节帧率等，设置好后，点击“Generate”即可生成视频。

当然，你也可以做“等等党”申请官方应用候补名单，蹲一个更好的使用体验。（以上链接已整理至文末）

总的来说，相比早前“头号AI玩家”报道的Runway Gen-2，从各路网友的测评以及HuggingFace体验上来看，SVD的生成效果确实有两把刷子，但最终落地到应用端SVD能否吊打RunwayML、Pika Labs还有待观察。

毕竟SVD还是一款处于研究阶段的模型，现在只能用于研究和其他非商业目的。但耐不住“真香”的是，官方透露接下来会继续扩展SVD，建立一个类似于SD的生态系统。

要知道SD开源商用的组合，之前可是引领了AI绘画的热潮。如果未来SVD重复SD的路子，再结合Stability AI丰富的图像影音开源生态，搞不好“人人都是导演”的时代还真离我们不远了。

AI视频生成工具大混战

最近小半年，AI视频生成工具迎来了一波密集的升级换代。

2023年7月，“黑马”Pika labs开始内测，用户通过聊天框输入文字指令就能生成视频，而后Pika Labs还上线了“图片加文本生成视频”的功能，效果一度被誉为媲美Runway。

10月，初创企业Moonvalley由AI图/文生成转向AI视频生成，推出号称“史上最强大的视频生成AI”，一句提示词就能生成16:9电影画质的高清视频。

10月末，Genmo发布Replay0.2版本，上线图片转视频的功能，分辨率提高2.7倍。

同一时期，开源框架AnimateDiff在网上走红，因可控性高、生成动画视频质量好而备受青睐。

AnimateDiff团队更新也很频繁，从一开始只能生成16帧动画，到9月更新V2版本之后，单次可生成32帧的动画，大大提升了动画生成质量，并且后续还推出了LoRA镜头控制功能，帮助用户获得更精确的生成效果。

进入11月，Runway推出“里程碑式更新”，Gen-2分辨率提升至4K，视频保真度和一致性有了重大提升。

上个星期，社交媒体巨头Meta推出了两项AI视频编辑新功能，即将引入Instagram或Facebook。其中，Emu Video可以根据字幕、图像、文字描述等自动生成四秒长的视频;

Emu Edit则允许用户通过文本指令修改或编辑视频，没有专业图像编辑经验的普通人，动动手就能做后期。

最近，Gen-2指哪儿画哪儿的“运动笔刷”也正式上线。

各家你追我赶的架势，不仅让卷出来的产品效果和用户体验越来越好，还悄悄改变着每一个普通人对视频创作的认知。

如今，Stability AI入局更让人期待接下来AI视频生成工具的走向，各位玩家认为，未来做视频会像打字一样简单吗?评论区见。

项目地址:

https://github.com/Stability-AI/generative-models

HuggingFace地址:

https://huggingface.co/stabilityai/stable-video-diffusion-img2vid

官方应用候补名单申请:

https://stability.ai/contact

AI生成视频入局新卷王上线不到48小时网友大片 刷屏X

0009

评论列表

共(0)条

相关推荐

站长资讯
中国移动在北京2000里外建了超大数据中心
近年来，宁夏积极发展数字基础设施，并加大对中卫西部云基地的网络升级力度，从而实现了直达北京、上海、广州、成都等城市的链路。中国移动（宁夏）数据中心是目前宁夏规模最大的数据中心园区，已建成3栋机楼，为包括美团、阿里、亚马逊在内的众多国内外头部互联网公司提供服务。
站长网2023-08-19 15:46:40
0000
站长资讯
年轻人挤爆彩票站：网点月销超百万，开店至少排队3月
上进与上香之间，年轻人选择了买彩票。今年一个显著的消费现象是，彩票店开进了商场，彩票店柜台边围满了刮彩票的年轻人。5元、10元、20元、50元等不同面值的刮刮乐，像奶茶、盲盒一样，吸引着不少年轻人心甘情愿地掏腰包。
站长网2023-11-20 16:05:34
0001
站长资讯
曾被指抄袭《仙剑3》！网剧《长月烬明》bgm抄袭网易《阴阳师》：官方回应
快科技4月26日消息，近日，有玩家发现，近日播出的仙侠题材网剧《长月烬明》，在bgm上疑似抄袭网易手游《阴阳师》。对此，《长月烬明》官方回应称，出于支持原创和对知识产权的保护和尊重，在最终鉴定结果确认前，我们先替换掉剧中这段音乐。目前两首曲子正在做专业鉴定，后续情况将另行说明。”
站长网2023-04-26 22:10:25
0001
站长资讯
Ideogram 1.0图像生成模型发布文字生成能力更强大了
Ideogram发布了最新的Ideogram1.0图像生成模型，该模型具有强大的文字生成能力和提示词理解能力。Ideogram1.0在文本渲染准确性方面实现了飞跃。比如你输入一段提示，让它生成一个充满活力且色彩缤纷的汉堡广告，并配上一句“释放你的想象力!”的口号，Ideogram可以很好地理解提示词，并且在文字生成上表现良好。此外，Ideogram1.0在真实感和照片景深等方面也表现优异。
站长网2024-02-29 09:49:42
0000
站长资讯
亚马逊生成式 AI 增强语音助手：通过 Alexa LLM 改善智能家居的大脑
站长之家(ChinaZ.com)9月21日消息:亚马逊的Alexa即将迎来革命性变革，而其新面貌可能非常引人注目。在周三的秋季硬件发布活动中，该公司揭示了由其全新Alexa语言模型提供支持的全新Alexa语音助手。根据亚马逊设备与服务部门的现任高级副总裁DaveLimp所说，这个新的Alexa能够理解对话短语并做出恰当回应，更有效地解释上下文，并完成多个请求。
站长网2023-09-21 09:41:54
0000