AI生成视频入局新卷王,上线不到48小时,网友“大片”刷屏X
AI视频生成工具卷起来了!
本周二,Stability AI低调发布了首个开源AI视频模型Stable Video Diffusion(以下简称SVD),同时还晒出测试数据称,SVD的模型性能碾压RunwayML、Pika Labs等领先的闭源商业模型。
大家可能不认识Stability AI,但一定听过它开发的、同样是开源的热门文生图模型Stable Diffusion(以下简称SD),不少人首次接触AI绘画,甚至AIGC领域,都是从SD开始的。
这次Stability AI下场,一个不小心又开源了AI视频模型,如今已集齐图像、语言、音频等多领域开源大模型,引得一众网友纷纷表示“终于等到你”,SVD上线消息不到48小时,X浏览量就破了80万。
热度拉满,SVD表现如何?
与市面上主流的AI视频生成模型功能类似,SVD支持用户输入文本或是图片来生成视频。
具体效果如何?先感受一波官方放出的亿点点震撼。
文生视频:
图生视频:
针对“图生视频”功能,Stable Video Diffusion提供两种版本模型,用户可以以每秒3~30帧之间的自定义帧速率生成SVD(14帧)和SVD-XT(25帧)的视频。
简单理解,帧率越高,视频画面越流畅。
值得一提是,Stable Video Diffusion还可以根据单个输入图像生成多个视角的视频内容。对创意视频工作者来说,这个功能非常炸裂。
例如,以往需要大费周章实拍的镜头,现在AI用一张图片就能生成多角度的视频素材,极大地节省拍摄人力和时间。
随着Stability AI加入视频生成模型混战,有网友不禁感叹:“先RunwayML,后meta,现在再来一个Stable Diffusion,恐怕不久,用AI就能搞定一整部电影了。”
这不,说来就来,网友们的“大片”已经刷屏X(推特)。
“燃烧的树”:
“会动的梵高星空”
“AI想象的未来世界”:
“3D太阳花”
其中在X上被疯转的一支视频,因为太过丝滑和流畅,真实到让人迷惑是不是信息流里混进了游戏录屏。
该视频出自X博主“fofr”,据他介绍,喂给SVD的参考图是Midjourney生成的,最终生成出来的效果连他自己都大受震撼:“就像真实的游戏镜头。”
拿原始参考图对比视频,不能说很像,只能说一模一样。
头一波尝鲜的X博主“歸藏”用SVD生成了一组包括人像、花卉、自然风景的视频,既有超现实的海上风景,也有像是电影实拍的人物肖像和自然花卉。
一番测试下来,“歸藏”认为SVD可以自动判断哪些地方该动以及应该怎样动,在复杂内容(如人脸)生成上不会出现像Runway一样画面崩坏的问题。
看到这里,“头号AI玩家”也忍不住去HuggingFace浅试了一波。
注意!这不是《塞尔达》游戏录屏,而是SVD根据游戏截图生成的AI视频🔽
为了测测SVD人脸生成怎么样,我先去SD生成了一张图片,输入提示词是:Portrait of an elegant woman。
可以看到,视频在眼睛处理上存在严重失真(前方高能)🔽
不过,调小了动作幅度之后,生成的效果确实不错🔽
目前SVD只发布了基础模型,想要体验SVD又苦于硬件实力不够的玩家,可以上HuggingFace体验SVD的“图生视频”功能。
进入界面,左边拖入图片,右边为生成的视频,点击高级选项,可选择种子(Seed)编号、控制运动幅度以及调节帧率等,设置好后,点击“Generate”即可生成视频。
当然,你也可以做“等等党”申请官方应用候补名单,蹲一个更好的使用体验。(以上链接已整理至文末)
总的来说,相比早前“头号AI玩家”报道的Runway Gen-2,从各路网友的测评以及HuggingFace体验上来看,SVD的生成效果确实有两把刷子,但最终落地到应用端SVD能否吊打RunwayML、Pika Labs还有待观察。
毕竟SVD还是一款处于研究阶段的模型,现在只能用于研究和其他非商业目的。但耐不住“真香”的是,官方透露接下来会继续扩展SVD,建立一个类似于SD的生态系统。
要知道SD开源 商用的组合,之前可是引领了AI绘画的热潮。如果未来SVD重复SD的路子,再结合Stability AI丰富的图像影音开源生态,搞不好“人人都是导演”的时代还真离我们不远了。
AI视频生成工具大混战
最近小半年,AI视频生成工具迎来了一波密集的升级换代。
2023年7月,“黑马”Pika labs开始内测,用户通过聊天框输入文字指令就能生成视频,而后Pika Labs还上线了“图片加文本生成视频”的功能,效果一度被誉为媲美Runway。
10月,初创企业Moonvalley由AI图/文生成转向AI视频生成,推出号称“史上最强大的视频生成AI”,一句提示词就能生成16:9电影画质的高清视频。
10月末,Genmo发布Replay0.2版本,上线图片转视频的功能,分辨率提高2.7倍。
同一时期,开源框架AnimateDiff在网上走红,因可控性高、生成动画视频质量好而备受青睐。
AnimateDiff团队更新也很频繁,从一开始只能生成16帧动画,到9月更新V2版本之后,单次可生成32帧的动画,大大提升了动画生成质量,并且后续还推出了LoRA镜头控制功能,帮助用户获得更精确的生成效果。
进入11月,Runway推出“里程碑式更新”,Gen-2分辨率提升至4K,视频保真度和一致性有了重大提升。
上个星期,社交媒体巨头Meta推出了两项AI视频编辑新功能,即将引入Instagram或Facebook。其中,Emu Video可以根据字幕、图像、文字描述等自动生成四秒长的视频;
Emu Edit则允许用户通过文本指令修改或编辑视频,没有专业图像编辑经验的普通人,动动手就能做后期。
最近,Gen-2指哪儿画哪儿的“运动笔刷”也正式上线。
各家你追我赶的架势,不仅让卷出来的产品效果和用户体验越来越好,还悄悄改变着每一个普通人对视频创作的认知。
如今,Stability AI入局更让人期待接下来AI视频生成工具的走向,各位玩家认为,未来做视频会像打字一样简单吗?评论区见。
项目地址:
https://github.com/Stability-AI/generative-models
HuggingFace地址:
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid
官方应用候补名单申请:
https://stability.ai/contact
迅雷学生会员来了:一年只要1.99元
快科技9月2日消息,迅雷学生专区重磅上线,只要你是18-24周岁在校学生,支付1.99元-2.8元,就能解锁学生会员身份(有效期1年)。迅雷学生会员拥有两大专属特权:1、2T专属云盘空间,学习资料备份无忧。2、丰富生活权益,享肯德基/美团等大牌优惠。学生卡入口一:iOS迅雷(需更新至最新版本)-我的-学生专区学生卡入口二:迅雷云盘”小程序-我的-学生专区站长网2023-09-02 15:37:230000AI日报:阿里又推王炸级对口型项目EchoMimic;三星推Galaxy Ring智能戒指;高保真3D头像生成模型RodinHD
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、AI对口型项目EchoMimic:音频角色照片生成生动配嘴型视频站长网2024-07-11 15:42:240001医疗AI平台Hippocratic完成5300万美元融资 估值5亿美元
划重点:⭐️专注医疗领域的HippocraticAI完成了5300万美元的A轮融资,估值5亿美元,总融资达到1.2亿美元。⭐️发布第一个用于第三阶段安全测试的产品,提供医疗保健人员配置市场,可“雇用”生成式AI代理完成繁琐医疗业务。⭐️融资由PremjiInvest和GeneralCatalyst共同领投,公司表示将进一步创新功能,加强在医疗转型中的关键作用。站长网2024-03-20 11:02:100000英国出版协会敦促政府保护版权作品免受AI侵害
划重点:1.四个主要的出版协会联合敦促英国政府采取措施,制止侵害版权的人工智能工具的滥用。2.出版业呼吁政府承认和补偿已发生的版权侵权,并确保未来侵权行为停止。3.文章指出,人类创造力是出版和创意产业的基石,需要强有力的版权制度、作者补偿和创作者的控制。站长网2023-10-31 16:30:380000给自动驾驶AI上“外挂”!港大&TCL开源轻量级模型MarS3D
香港大学计算机视觉与机器智能实验室(CVMILab)和TCLAILab的研究人员共同开发了一种名为MarS3D的轻量级模型,可以显著提升自动驾驶AI的物体运动状态判别能力。项目地址:https://github.com/CVMI-Lab/MarS3D站长网2023-08-02 10:08:380000