一次性生成5个8秒视频，用AI做抖音短视频不是梦？

站长网2024-07-25 10:31:151阅

最近的AI视频赛道，在玩法上“卷”出了新高度。

有用户用它完善视频细节:

还有人用它创作了科幻大片:

甚至让马斯克微笑点头:

还有大鱼吃小鱼，实现普通摄像头难以拍摄的效果:

较强的灵活性和视频可控性，一下让人难以分辨虚实，而这些镜头都是靠爱诗科技的AI视频工具PixVerse实现的。

PixVerse继4月更新运动笔刷功能之后，今日又重磅上线了PixVerse V2模型。V2支持直接生成长达8秒的视频，甚至可以一次性生成1-5个视频片段，并保证风格、主体和场景的一致性。

PixVerse已经率先朝着AI视频生成的一致性方向发力。这是要进军AIGC短片吗?此次更新的PixVerse V2实力究竟如何?“AI新榜”从角色一致性、想象力、控制力维度上，第一时间给各位玩家实测了一番。

实测PixVerse新功能:一次性生成5个8秒视频

据了解，PixVerse突破了时长技术限制，能单次生成8秒的视频。但要知道AI视频生成的时长越长越容易“露怯”，出现瑕疵。那么，其文本理解能力还能稳定发挥吗?我们先用V2简单测了一下文生视频和图生视频。

文生视频

‍提示词:golden retriever in sunglasses sunbathing on a beach in Hawaii

PixVerse V2版本

PixVerse V1版本

从生成效果来看，动物类的表现很不错，几秒内可以动的细节更多，比如狗狗的耳朵，毛发。虽然动作幅度依旧比较小，但整体视频呈现得更完整，在视频质量以及清晰度上都有明显的进步。

另外，PixVerse V2升级了模型理解和表达能力，在真实性和细节表达上进一步加强。

提示词:A beautiful women is walking towards the camera

PixVerse V2版本

PixVerse V1版本

可以看到，人物类镜头方面，画面主体没有出现特别大的技术瑕疵，光影效果也做得很好。相比前一个版本，V2生成的人物动作幅度更大，也更真实。

但遗憾的是，和其他的AI视频工具一样，仍然是无法理解提示词当中的镜头术语，如“走向镜头”，画面中主体的运动只是简单转了下头。

图生视频

图生视频怎么能少得了这张经典梗图:

在图生视频模式下，我们没有输入任何提示词，想看看PixVerse V2的“联想”能力如何。

PixVerse V2并没有让图中男生变成“渣男”，而是转过头与红衣女孩错过，看多了其他AI视频工具的戏剧效果，PixVerse V2展现的反而有点淡淡的忧伤。

三个人的动作幅度都不大，但难能可贵的是唯一出现脸部的红衣女孩没有出现“变脸”，牺牲了戏剧效果但保证了角色的一致性。

相比之下，这张“房子着火我微笑”的梗图生成效果就比较一般了。

转头离去，但“变脸”速度巨快:

控制住了变脸，但场景突然切换:

要说整活，还是AI在行啊。但总的来说，图生视频参考了我们上传的图片元素，玩梗能力在线，做二创是个不错的选择。

在此前“AI新榜”的短片尝试，以及大量用户反馈和社区讨论反馈中，AI视频的一致性一直是一个难题，更不用说单次生成长达40秒的视频片段了，一起看看PixVerse V2的多片段生成能力。

生成多片段40秒视频

在PixVerse首页点击右侧“PixVerse V2”，就可以进入多片段生成页面，同样支持文生和图生视频。

在这里，需要我们选择“Scene1”，输入相应提示词，再添加“Scene2”，输入第二个场景想要呈现的画面，以此类推，最多添加5个不同的场景后，一次性生成完整片段。

换句话说，就是把短片的视频分镜，通过自然语言的形式呈现出来。

从官网发布的信息看，在PixVerse V2模式下，5个场景的画面风格都会与第一个场景保持一致。

如果我们还上传了图片，那么这些图片会参考场景1的图片风格进行重绘，保证生成视频风格的一致性。

比如，我们输入的提示词如下:

Scene1:the panda is playing the violin.

Scene2:It is playing the piano.

Scene3:It is eating the hamburger.

大约等待5分钟左右，V2一次性生成了长达16秒的视频片段。可以看到，在视频主体、场景以及画面色调上尽量保持了一致性，还省去了我们单个片段不断“抽卡”的时间。

只不过，最终生成的画面在精细度上还有待提高，依旧会出现小提琴、汉堡微变形的画面瑕疵。

如果我们对某个片段熊猫的动作、环境、镜头运动不满意，还可以选择替换相应的角色元素，进行二次编辑。

我们继续尝试一下人物类镜头一致性，将上述提示词中的“panda”换成了“the woman”，测试了一波V2的角色控制能力。

没想到的是，PixVerse V2直接规避了短板，生成了全是近景特写的片段，压根没出现人物。

考虑到是“the woman”太过宽泛，我们又将主体替换成确切的人物角色“Harry Potter”，测试结果显示，在多片段生成时，人物手指等细节瑕疵无可避免，但场景、风格一致性上发挥稳定。

1秒只需0.1元，AI视频的成本竞赛

今年下半年，AI视频领域掀起了一波应用间的较量，快手可灵、Runway Gen-3等陆续面向公众开放使用。

几家产品的问世，都向我们传递了一个信息“AI视频生成技术更适合短视频制作”。

除了效果表现之外，陆续有AI工具开始采取付费订阅制，快手可灵同样结束了免费试用期，正式迈入了“收费时代”。

快影App内公告

作为AI领域向来绕不开的问题，商业化的困境同样出现在了视频应用上。

当生成越长的视频，是否成本就越贵?

据调查机构Factorial Funds发文表示， Sora约30亿参数的训练成本，比1.8万亿参数的GPT-4还要多。

Factorial Funds对Sora的相关报道

对于AI视频而言，一些生成服务会根据视频的时长、所需处理的视频复杂性以及使用技术等因素来定价。

如果AI视频还包括了高度定制化的内容，对视频生成的质量、连贯程度以及真实性有要求，实际所用的推理成本自然就会更高。

曾有媒体报道，国内AI企业做过一个估算，大约两分钟的AI视频实际要花掉180元。

盈利，是摆在所有AI视频工具面前的共同问题。哪怕是PixVerse也扛不住相应的推理成本。

目前，PixVerse推出了订阅套餐方案，基础会员每月5美元，可以获得1150个积分。

PixVerse每生成8秒的视频，需要消耗30个积分，这样算来，1150个积分大约能生成20条完整的15秒短视频，一条短视频的成本折合人民币1.5元，是Runway Gen-3费用的1/3。

当然，背后的技术以及生成视频结果的不确定性，导致实际使用的成本会骤升。

费用之外，对于大多数普通用户而言，短短几秒的视频时间，如果只是简单的镜头移动，除了获得体验感，很难有真正的使用场景。

爱诗科技创始人王长虎在年初接受采访时也提到:“在未来6-12个月里，我们希望用AI制作出15秒长的可消费内容。只有当普通人都能用AI生成出好看、好玩的内容，才是AI视频的ChatGPT时刻”。

目前看来，高算力、高成本依旧是商业化的主要障碍，但不少视频玩家也从中找到了用户留存的新方法，“AI整活”“老照片动起来”“AI修复”等抽象玩法在互联网上层出不穷。