谷歌版Sora升级4K高清!一句话控制镜头运动,跑分叫板可灵海螺
OpenAI直播划水的一天,谷歌版Sora迎来了它的2.0——
Veo2,根据文本或图像生成更为高质量的视频。
从官方介绍中看,此次主要有三个方面的升级。
比如分辨率能达到4K。

能够理解有关镜头控制的Prompt。

更注重现实物理世界与人类表情的理解和展示。

在官方账号底下,大家都对这些效果表示了惊叹:
我真的想谷歌输掉比赛,但是谷歌没有输。
另外,图像生成模型Imagen3也有进一步的改进。
谷歌版Sora2.0:重新定义质量和控制
质量和控制,是此次视频模型升级的关键词。
除了显而易见的清晰度的提升——最高可达4K分辨率,它能够忠实地遵循简单和复杂的指令Prompt,并令人信服地模拟现实世界的物理以及各种视觉风格。
具体体现在它的真实感和保真度上,比如细节、伪影减少等方面都有显著改进。
还有高级的运动功能,基于对物理学的理解,能够更高精度的表示运动。
还能准确地遵循各种镜头控制类的Prompt,比如拍摄风格、角度、动作以及所有这些的组合。
那么接下来直观地感受一下效果。
,时长00:08
Prompt:特写镜头聚焦于一位女 DJ 的脸部,她美丽、浓密的黑色卷发勾勒出她的五官,她完全沉浸在音乐中。她闭上双眼,沉浸在节奏中,嘴角挂着一丝微笑。当她随着节拍点头和摇摆时,相机捕捉到了她头部的细微动作,她的身体本能地随着耳机中传出的音乐而做出反应,传到人群中。浅景深使背景变得模糊。她被鲜艳的霓虹色包围着。特写镜头强调了她迷人的气质以及音乐传递和超越的力量。
还有是这种集体的蜂群也能刻画出来。
,时长00:08
Prompt:镜头轻轻飘过一排排粉刷过的木制蜂箱,嗡嗡作响的蜜蜂在画面中进进出出。镜头落在站在画面中央的优雅农民身上,他洁白的养蜂服在金色的午后阳光下闪闪发光。他举起一罐蜂蜜,稍微倾斜以捕捉光线。在他身后,高大的向日葵在微风中有节奏地摇曳,花瓣在温暖的阳光下闪闪发光。镜头向上倾斜,露出一座复古的农舍,百叶窗是薄荷绿色的,摇曳的树木在墙上投下斑驳的阴影。用35毫米镜头在柯达 Portra400胶片上拍摄,金色的光线在农民的手套、果酱罐和蜂箱的风化木材上形成了丰富的纹理。
还可以切换镜头,从近景到远景,而在镜头之下,不管是蜂蜜还是咖啡的泡沫细节都有精确地刻画。
,时长00:08
Prompt:太阳在一盘摆放整齐的早餐场景后缓缓升起。浓稠的金色枫糖浆以慢动作倒在松软的煎饼上,每一块煎饼都散发出柔软温暖的蒸汽云。特写镜头中,脆培根发出嘶嘶声,金色油脂的细小余烬在空中飞舞。咖啡以顺滑的旋转动作倒入水晶般透明的杯子中,杯子里充满了深棕色的咖啡油层。场景结束时,相机俯冲到新鲜切好的橙子上,以令人惊叹的微距细节展示出它明亮多汁的果肉。
那么在根据人类对其性能的评估中,Veo2的表现优于其他领先的视频生成模型
在Meta基准数据集 MovieGenBench上,人类参与者观看了1003个提示和响应的视频。
结果显示,跟市面上的主流视频生成模型相比,Veo2.0在整体偏好、Prompt指令准确遵循方面都表现最佳。
值得一提的是,这里除了Sora,国产模型可灵、MiniMax都上桌了。
所有的比较都在720P分辨率下进行,Veo 采样时长为8秒,VideoGen 采样时长为10秒,其他型号采样时长为5秒。我们向评分者展示完整视频时长。
最后,他们表示,创建逼真、动态或复杂的视频,并在复杂场景或复杂运动的场景中保持完全一致性仍然是一项挑战。他们将继续开发和改进这些领域的性能。
图像模型Imagen3也增强了
除此之外,还增强了他们的图像生成模型Imagen3。
可以生成更多样化的艺术风格,如现实主义、梦幻、肖像画等等。
生成的图像会更忠实于Prompt,哪怕这个Prompt有多么地离谱。(Doge)
而从各种生成的图像来看,视觉效果也比之前更明亮,构图也更加平衡。
好了,感兴趣的朋友可戳下方链接了解更多详情。
参考链接:
[1]https://deepmind.google/technologies/veo/veo-2/
[2]https://x.com/GoogleDeepMind/status/1868703624714395907
[3]https://deepmind.google/technologies/imagen-3/
—完—
ofo被强制执行1686万 涉及承揽合同纠纷
站长之家(ChinaZ.com)2月29日消息:2月28日,据企查查显示,ofo关联公司东峡大通(北京)管理咨询有限公司及其子公司北京拜克洛克科技有限公司近日新增了一则被执行人信息。据悉,该案件涉及承揽合同纠纷,执行标的达到1686万余元。北京市海淀区人民法院负责此次执行工作。站长网2024-02-29 09:04:250000Amazon Transcribe新一代语音基础模型驱动的ASR系统,支持100多种语言
#划重点1.🎙️**多语言支持:**AmazonTranscribe推出的新一代语音基础模型涵盖100多种语言,提供全面的自动语音识别(ASR)服务。2.🚀**性能提升:**利用语音基础模型,AmazonTranscribe在大多数语言中实现20%至50%的显著准确度提升,尤其在电话语音等挑战性领域中提高了30%至70%的准确度。站长网2023-11-27 10:01:170000Toona:一款好用的黑白漫画上色工具
Toona是一款可以批量给黑白漫画上色的工具,上色的效果非常不错。这个工具可以帮助那些看不习惯黑白漫画的用户,让他们可以轻松地享受到有色彩的作品。测试效果如上图Toona的核心功能在于将漫画图像进行彩色处理,通过点击图像进行预览,并提供“清除”和“添加颜色提示”的选项,让用户可以根据自己的喜好为漫画图像增添色彩,让整个漫画世界更加丰富多彩。站长网2024-02-28 15:00:200002NVIDIA官方自曝下下代GPU:2025年这么着急?
NVIDIA最近在一份面向投资者的演示文件中,意外披露了下下代GPU架构的路线图。NVIDIA目前有两种截然不同的GPU架构,一是面向消费级游戏和图形的AdaLovelace,二是面向高性能计算和人工智能的Hopper。下代架构代号Blackwell,将同时用于以上两大领域,游戏用的核心编号GB20x系列,计算用的核心编号GB200。站长网2023-10-11 20:52:390000格莱美CEO:AI作为工具很酷,但不能取代人类创造力
RecordingAcademy发布了新的格莱美奖指南,规定只有“人类创作者”才有资格获得这个音乐界最高荣誉。虽然AI创作的音乐仍然可以参选和提名,但是学院不会授予AI部分格莱美奖。这一举措旨在承认AI在增强、修饰或补充人类创造力方面的作用,但不是取代它。该指南是在与版权办公室等机构进行广泛研究和讨论后制定的。站长网2023-07-08 17:00:560001