19171

文生视频时代已到，百度、讯飞、字节谁能率先做出“国产Sora”？

站长网2024-02-24 10:26:460阅

继ChatGPT后，OpenAI又在文生视频的领域中扔下了一颗深水炸弹，引爆了海内外AI圈。

2月16日，OpenAI的文字生成视频模型——Sora首次面世。据介绍，Sora可以根据所输入的prompt，直接输出最高长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

在OpenAI创始人阿尔特曼的社交网站上，其也放出了Sora生成的视频，如下便是以“A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view”（一场在海洋上举行的自行车比赛，不同的动物作为运动员骑着自行车，通过无人机摄像机视角进行拍摄）为提示词生成的视频。

此外，用更具体的prompt也可以获得时长更久的视频，如下便是以“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去”为提示词生成的视频。

上述两个视频，如果不告诉你它们是由AI生成的，谁又能辨别出来呢?

那么，OpenAI的首款文生视频模型Sora是如何完成文生视频的?其与Runway Gen-2、Pika等AI视频工具相比，有着什么样的进步，又有哪些不足?Sora的出现，会让哪些行业出现翻天覆地的变化?对国内的AI企业，又有哪些启示呢?

Sora的底层逻辑，其实和大语言模型相同?

要深入探索Sora的多方面特征，我们首先需从其技术根基着手。换句话说，我们最先需要明白的是，Sora生成视频内容的背后，究竟是依托于怎么样的技术实现的?

在当今的人工智能领域，大模型的发展都离不开Transformer架构。这一架构的核心思想是利用海量数据进行学习，以便在特定的目标场景中实现泛化效果，即通过分析先前的内容来预测后续的内容。

这种方法在文本生成领域中表现出色，因为文本数据的结构和标准相对一致。然而，对于视频数据，情况就大不相同了。视频数据包含了图像内容、时间、颜色等多种维度的信息，如何将这些不同维度的因素有效结合，成为了构建AI视频模型的关键挑战。

在Sora项目的推进过程中，OpenAI深入思考并参考了大型语言模型的成功之道，即通过互联网上的超大规模数据训练，以获得通用的处理能力，从而成功将代码、数字和各种自然语言进行了有效的统一处理。

而为了让视觉数据模型继承这样的好处，Sora也采用了与大语言模型相同的思路，即LLMs既然可以使用token标记，那么Sora与采用类似于视觉领域中的token不就可以解决问题了吗?

具体来看，Sora模型构建了Visual Encoder视频压缩网络，将视频转换到低维空间Latent Space，然后将Latent Space分解成Patch表示，将视频生成的任务转化成通过已知Patch预测接下来的Patches的任务，然后通过Decoder将Latent还原成人类可理解的高像素视频并拼接起来，最终生成目标视频。

图源:OpenAI-Sora技术文档

也正是因为将视频转换成Patch表示，所以Sora模型并不像传统的视觉模型那样，需要被高宽比、分辨率、时间等因素限制，让整个模型的范化能力和通用性变得更强，还支持更多的Prompt类型，完成图生视频、视频扩展、多个视频之间连接等功能。

与先前的文本生成视频软件如Runway、Pika和Stable Video等“前辈”相比，Sora不仅在技术层面取得了突破性的进步，视频效果上更是实现了如代际碾压般的降维打击。

首先，最直接差距的便是视频长度的提升，社交平台上一位名为“Gabor Cselle”的博主将相同的prompt“美丽、白雪皑皑的东京熙熙攘攘，镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，在附近的摊位购物，绚丽的樱花花瓣随着雪花随风飘扬”输入给Sora、Pika、Runway、Stable Video四个模型后，它们给出的结果是这样的。

可以看到，当前主流的AI视频生成软件Pika、Runway和Stable Video视频生成的时长普遍被限制在5秒内，在特定情况下，应用户要求，这些平台能扩展至16秒，这已是2024年以前AI生成视频领域公认的最长时间纪录。而Sora则突破常规，其独特的能力允许它生成长达一分钟的视频，这一时长无疑将其置于行业绝对的领先地位。

而在简单的时长增加外，Sora多镜头切换的能力，也让人十分惊叹。

众所周知，在真正的视频拍摄中，多镜头场景的拍摄并不是件易事，不仅需要多个机位共同参与，还需要在后期进行复杂的剪辑，所以过去的AI视频大多都是单镜头出现，但Sora放出的文生视频很多都出现了多角度的镜头切换，并可以在不停的切换之间实现拍摄对象的一致性，这都是其他AI视频软件无法完成的。

此外，Sora创造出的场景和角色，已经达到了以假乱真的地步，从各种细节上来看，都好像是真实拍摄的一般，譬如下图人物的瞳孔、睫毛等细节处理，都看不出任何的AI味道。

不过尽管Sora在文本生成视频的领域取得了显著的进展，它仍然只是文生视频革命的初步尝试。OpenAI在其技术文档中也坦诚，Sora存在不少局限性，例如，其无法准确地模拟许多涉及到交互的物理特性譬如玻璃破碎等，也会出现吃掉饼干一部分后饼干仍然完好无损的情况。

然而，虽然Sora距离完美还有漫长的道路，但它的问世已经在海外被广泛视作第四次科技革命的一个里程碑。这可以类比于第一次工业革命中火车上首次应用蒸汽机，那一刻人们意识到，原本需要数日骑马车完成的旅程，现在只需几小时即可抵达。

360公司的董事长周鸿祎对Sora的评价更是高度肯定，他表示，“Sora不仅仅是一次简单的尝试，它所展示的，是大模型在理解和模拟真实世界方面取得的新成就和突破”，“就像做梦一样”。他甚至预言，Sora的出现可能会将通用人工智能（AGI）的实现时间从10年缩短至一到两年，这无疑是对Sora以及人工智能未来潜力的极大认可和期待。

Sora，将颠覆这些传统行业

OpenAI Sora的推出，让我们见证了一个技术奇迹的诞生。这个能够快速且优质地将文字描述转化为引人入胜视频的AI工具，不仅仅代表着技术上的一次巨大飞跃，也预示着我们熟悉的许多行业即将面临一场革命。

受其影响最大的行业，莫过于视频行业大类下的诸多细分行业了。

目前，全球有超过60亿人口是视频工具和短视频的用户，而其中与视频产业相关的从业者可能已经超过了将近10亿人，占到了全球总人口的13%到14%，这些从业者涵盖了影视行业、短视频行业以及我们日常触手可及的各种视频展示领域，包括广告制作等行业。随着人工智能（AI）技术在视频领域的融合与创新，这些从业者所在行业正在经历一场由AI视频技术引发的变革。

对于影视行业来说，AI视频模型的出现，将极大地降低拍摄剧集的门槛。

博主快刀青衣发文表示，在与业内人士的沟通中，做了20年影视导演的陈坤看到Sora后说的第一句话是“要变天了”，第二句话是“我直到今天才庆幸自己是个导演”。

而在追问中，陈坤表示现在的影视行业，分工极其精细，很多工种和里面的从业者都是阶段式配合，只有导演是需要从前期跟到后期的，然后去不停协调各个工种，从舞美、化妆、道具到灯光、摄像、摄影，从演员、编剧、剧务到动画特效，可以说一个环节掉链子，整个戏就可能功亏一篑。而如果AI视频按照现在的发展速度，至少很多简单的镜头、群演、灯光布景等，都可以用AI去完成了。

可以说，那些过去需要拍一年，花费数千万乃至上亿的影视作品，在未来凭借AI的能力，或许只需要一个月时间，成本也将大幅压缩，一变革不仅将对影视制作的效率产生深远影响，更可能引发对从业者技能要求的重大转变，未来有创意、会写prompt的导演，或许才是最需要的人才。

如果说对于影视行业从业者来说，AI视频模型是好帮手的话，那么对于广告行业从业者来说，更像是一场突如其来的“灭顶之灾”。

原本高度依赖人力创意和精细制作流程的广告拍摄与后期制作，在AI技术的赋能下，得以实现大规模的效率提升与成本优化。比如，以往制作一支高品质广告片，从策划、脚本撰写、场景搭建、模特选择到拍摄剪辑、特效合成等环节，可能耗时数月并耗费高昂预算。

而随着AI视频模型的应用，部分标准化及重复性高的工作内容，如背景替换、动态贴图、群演模拟等，均可以借助AI快速生成，从而极大地缩短了项目周期。

同时，AI作为“无情的学习机器”，完全可以替代人类根据品牌需求自动生成多版本广告创意，并通过机器学习不断优化传播效果，这无疑将对广告行业传统的创意生产模式带来前所未有的挑战，试想，在未来的竞标中，诸多友商报出数百万元价格的时候，AI视频广告公司却能以数十万元甚至数万元的成本完美解决用户需求，谁又能中标呢?

可以说，对于广告行业来说，AI视频带来的影响并不只是激烈的竞争，更意味着整个行业的组织模式与商业模式的重构。

此外，对于短视频行业来说，可以生成一分钟视频的Sora，已经对短视频从业者构成了极大的威胁。

在全球范围内，无论是中国的抖音、快手、B站和小红书等平台，还是国际版的TikTok，短视频内容消费正处于前所未有的高峰，而随着Sora的出现，用户现在能够迅速制作出各种类型的视频内容，未来稀缺的不再将是视频拍摄或者剪辑的能力，只要拥有独特的创意，便可轻松入局，也将会在短视频行业中掀起另一场风暴。

在Sora这一技术现象的辐射范围内，在其对视频产业带来的挑战与变革之外，也正悄然为其他领域开辟出新的机遇。其中，算力行业自然首当其冲，受益于Sora驱动的AI视频生成技术对强大计算能力的持续渴求，市场需求将迎来显著增长。但此处先按下不表，转而聚焦于另一个重要领域——安全行业。

海外研究界普遍认为，在AI视频生成广泛应用后，安全领域的革新将会是最受惠的方向之一。可以预见的是，随着技术的发展和普及，市场上将涌现一大批专注于视频真伪鉴别技术研发与服务的新兴企业。这些公司将利用最先进的算法和技术手段，为全球范围内的政府、企业和个人用户提供视频内容真实性验证服务，以及相关的数据安防解决方案。

Sora带起的这一波浪潮不仅会推动视频认证技术本身的进步，还将带动整个信息安全产业链的升级与完善，包括但不限于数字水印技术、深度学习检测模型、区块链存证等前沿技术的深度融合应用。一个全新的、围绕视频内容安全防护的生态系统也将在全球范围内逐步构建起来，为维护信息社会的公信力与秩序提供有力支撑。

百度、讯飞与字节，谁能摘下国产Sora桂冠?

在探讨了OpenAI的Sora模型与其对其他行业带来的深远影响之后，我们也该将视角转向国内，关注一下中国企业在文生视频领域的进展了。

年后A股开盘后，在Sora的催化之下，诸多概念股迅速升温，当日当虹科技、中文在线、因赛集团等公司均以涨停收盘，盘后也有许多企业在投资者交流平台交流相关进展。

其中，2月19日虹软科技官微宣，其核心大模型技术引擎——虹软ArcMuse再次升级。而此次升级将支持面向商拍的商业视频自动生成。

据介绍，与Open AI Sora类似，虹软ArcMuse大模型视频生成基于diffusion-transformer技术架构，具备丰富多样的创意力和想象力。通过图像，ArcMuse大模型能够捕捉到商品的细节特征、质感、色彩等方面的精确信息，生成更能展示商品真实面貌的动态商拍视频。

而因赛集团则在与记者的交流中表示，其AIGC项目团队按照计划，将在三月进行文生视频功能的开发，等待时机成熟后投入公测。

而在大模型的主流玩家行列里，字节跳动早在年初就发布了超高清文生视频模型MagicVideo-V2。据悉，该模型输出的视频在高清度、润滑度、连贯性、文本语义还原等方面，比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。

而就在前几日，阿里云旗下魔搭社区（Model-Scope）上线文本生成视频大模型。目前由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。

但整体看下来，除去字节跳动的MagicVideo-V2有一定的水平之外，其他大多都处于一言难尽，甚至还无法看到效果的阶段，同Sora的距离还有很远很远。

至于国内何时能复现Sora，复现过程中会遇到哪些问题，也有媒体采访了某大模型团队的工程副总裁。

在采访中，对方表示，“Sora的'核弹效应'表现为业内广泛认可，是视觉AI的'ChatGPT时刻'”，“但是Sora打通的这条道路并不神秘，总体上没有很多超预期的技术，它是沿着大一统多模态大模型的既定路线，在工程上取得的一项成果，没有改变既定的技术范式和设计理念。”

但对于国内大模型团队的复现速度，他提醒道，“魔鬼在细节里，而细节在闭源模型的技术报告里几乎没有任何披露。追赶的速度也会由数据、算力和工程能力等硬约束。”

换一种说法便是，其实Sora实现文生视频的大致思路和逻辑都已经在技术文档中公之于众了，但想要真正完成复现甚至超越，仍然需要考验国内AI企业包括算力、数据和工程能力在内的诸多的综合实力。

从这样的角度来看，那最有望做出并肩甚至超越Sora模型的企业，也无外乎在大语言模型中领先的百度、科大讯飞。

百度其实在很久之前就推出了文生视频的能力，在百度的百家号中，当用户上传文章之后，会有一部分文章被百度精选出来，自动生成视频，而在最近也发布了一款名为“UniVG”的视频生成模型，相关效果也位于除Sora之外的前列。

同时，百度作为国内深耕AI行业最深的企业，无论是算力的充足、数据的丰富还是工程能力的先进，都处于国内第一梯队，只要其以正常的速度进行推进，那么百度版的能力更强的文生视频模型，也将于未来不久上线。

除百度外，科大讯飞作为专精AI赛道的公司，也是大语言模型竞争中的佼佼者，1月底，星火认知大模型刚完成了V3.5的升级，并在华为的帮助之下，相关算力与工程能力得到了较快的提升。也有接近科大讯飞人士透露，科大讯飞目前内部正在研究文生视频。

而在“传统”领先的大模型企业外，字节跳动或将借助存储数据的优势弯道超车。

字节跳动在短视频和社交媒体方面的海量数据资源，使会其在文生视频模型的研发上占据独特优势。MagicVideo-V2的发布及其效果上的显著提升，已经证明了字节跳动在该领域的技术实力与创新能力。

随着火山引擎大模型服务平台“火山方舟”的推出，以及与多家合作伙伴共建的生态体系不断完善，字节跳动不仅能够利用自身的庞大用户基础产生的实时、多样的数据流进行训练优化，还有望通过高效的模型迭代和协同创新，在未来开发出能与Sora匹敌甚至超越的新一代文生视频模型。

但这样的优势也未曾不是一种包袱，作为数据层面最占优势的字节，又能否快速补上工程能力上的短板，摘下国内首个正式开放文生视频的桂冠，仍需要时间来证明。

写在最后

Sora的出现，无疑是AI领域的一次重大突破。它不仅展现了AI在视频生成领域的巨大潜力，更为内容创作和多个行业带来了全新的思考和机遇，抖音、Tiktok、B站、P站等视频平台，都需要重新审视自己的内容生态了。

而对于中国企业来说，Sora的出现既是挑战也是动力，国内AI企业前方又出现了一个需要追赶的目标，百度、科大讯飞等在大语言模型中领先的企业，以及拥有海量数据资源的字节跳动，都应该加速了。

参考资料:

1.《OpenAI最新文生视频模型Sora技术能力解密:基于Patch的数据规范性、多模态Prompt支持、物体持久性和远程相干性能力》，Garvin Li;

2.《Sora模型发布，哪些行业要变天?》，IT魔术师;

3.《国内复现Sora能力几何?李维:不存在跨不过的技术门槛》，中证金牛座;

4.《Sora技术文档》，OpenAI。