Sora并非完美,致命缺点也很多
华尔街日报的知名科技专栏作家Joanna Stern,专访了OpenAI的首席技术官Mira Murati,深度讨论了在今年2月16日发布的,全球爆火文生视频模型Sora。
本次访问少了一些赞美,多了一些“刻薄”。如何解释,Sora明显的缺点?它的训练数据来自哪里?何时上市?如何保证生成内容的安全性?… …
面对Joanna一连串的尖锐问题,有时,Mira只能龇牙咧嘴地含糊而过,或者,尴尬一笑。
Sora并非完美,致命缺点也很多
从访问内容来看,Joanna明显做足了功课拿出了不少Sora的存货,而且都是存在相当大的问题。
例如,在纽约市的人行道上,一名女性视频制作人手持一台高端电影摄像机。突然,一个机器人把摄像机从她手中夺走。
在这个视频中,Sora并没有完美地理解提示文本语义,没有出现一个机器人抢夺它手中的摄像机,而是直接把女性变成了机器人。这确实有点离谱,连Mira自己都笑了。
此外,背景中的物体会发生根本的变化,还是这个案例,黄色的出租车,在即将走出画面的瞬间,居然变成了灰色汽车。
这说明,Sora对视频中物体的控制性并不稳定,一些小的物体大概只能持续几秒的时间。
Mira给出了差不多的解释,同时表示,未来Sora可能会推出视频修复功能。可以让用户自行的对视频的一些小瑕疵进行修复,以满足实际的业务需求。
,时长00:48访谈视频片段
另外一个案例就更夸张了,由Sora生成的两个商务女士正在交流,表面看上去一切都很真实,细看之后才发觉恐怖,左面穿蓝色的女生居然出现13根手指(一共15个),并且像麻花一样纠缠在一起,六指琴魔见了都得喊一声前辈。
Mira表示,让Sora模拟手指这种细腻动作确实非常困难,不容易捕捉。
其实,这个问题不止在文生视频领域,在早期的文生图领域也很常见。
例如,去年的Stable Difusion、Midjourney在生成人物时整体都很好,就是手指不过关。
这主要是有3大原因:1)相比人体的大结构,手指的形状、大小、位置及与其他手指的关系极其复杂多变。
每个人的手指长度、宽度、关节弯曲度等都有所不同,而且手势的变化也极为丰富,使得大模型在训练、模拟方面非常困难。
2)大多数的图片、视频训练数据,在内容上有很大的差异,人脸和身体的部位,远远多于手部的特写内容。例如,我们很少能看到只有一只手的视频或者图片(广告可能会多一些)所以,大模型在学习、模拟手指等细节比较难,生成的能力也就偏弱。
3)即便使用了Transformer这种善于捕捉空间、依赖关系、特征提取的模型,但手指这样复杂、多变的物体来说也不容易,例如,手指的长短、粗细、相互间距等,都需要大模型精确生成才能达到真实感的效果。
需要注意的是,图片是静态的,而视频是动态的同时需要实时保持物体的一致性和连贯性,在技术实现方面更是难上加上。所以,在一定时间内,Sora面临解决的细节问题真不少。
Joanna还指出,目前Sora生成的视频全部没有声音,从应用场景来看这是一个很大的缺陷。
Mira则表示,Sora最终会生成带声音的视频,但这都需要时间来实现。
Sora训练数据来源
在Sora生成1分钟视频后,很多人都好奇,OpenAI到底在哪里搞到的,如此强悍的训练数据?
Joanna直截了当的问道:“Sora的训练数据来自哪里?”
Mira:我们使用的公开许可数据。
Joanna:使用的是YouTube、Facebook等上的数据?
Mira:听后,只能回答不确定并咧嘴。
随后说道,“我们使用的是公开数据,是那些允许使用的。但我也不太确定。”
其实也能理解Mira的苦衷。数据作为生成式AI领域的“黄金”,是各家厂商打造特定领域大模型的秘密武器之一,轻易是不会透露的。
并且微软、Meta、谷歌等巨头,用实际发布的大模型证明了,经过高质量数据训练的模型,即便参数很小,但性能依然可以战胜那些大参数的模型,可见训练数据的重要性。
最近,OpenAI也因为数据版权的问题惹上了好几起官司,Mira可不想再为公司带来麻烦。
不过,华尔街日报补充说明,在采访的结尾Mira确认了Sora的训练数据,来自Shutterstock,并已与OpenAI签订了数据合作协议。
Shutterstock创立于2003年,总部位于美国纽约,2012年成功上市。Shutterstock是全球最大的免版税的图片、视频分享平台之一。
目前,Shutterstock有超过2亿张高清图片,超过1000万个高清、4K视频片段,是训练图片、视频模型的宝贵数据来源之一。
Sora算力需求太大,短期内不会上市
Sora生成一个20秒720P的视频需要多少时间?Mira给出了答案,大约需要几分钟。
如果是1000、10000个人一起使用Sora生成视频呢?那将需要非常、非常庞大的AI算力。要是全球用户一起使用呢,估计Sora自己得先自爆。
Mira表示,与ChatGPT、DALL·E3相比,Sora的算力需求呈指数级增长。所以,在保证性能、推理效率、响应度的前提下,降低Sora的算力需求是首要任务之一。
OpenAI期望的是,在Sora最终上市时,能达到和DALL·E3相当的算力成本就算成功。
同时Mira给出了Sora上市时间:“可能是今年,还需要几个月时间。可以肯定的是,保证不是11月,OpenAI不想AI产品扰乱美国大选。”
这期间包括安全团队对Sora的深度测试以及优化,希望在正式上市时,不会生成一些存在争议、违规的内容,并且大模型的安全性,将是OpenAI持续深耕的重要领域。
Surfshark 安全报告显示 AI 事故飙升:特斯拉、Facebook、OpenAI 占据前三
据安全公司Surfshark表示,第一个「AI事故」差点引发了全球核战争。最近出现的AI事故、错误、欺诈和诈骗包括利用深度伪造技术影响政治、聊天机器人提供错误的健康信息,以及危及行人安全的自动驾驶汽车。根据Surfshark的报告,最糟糕的违规者是特斯拉、Facebook和OpenAI,它们占所有已知AI事故的24.5%。站长网2023-06-30 01:35:060000马斯克称Neuralink从未造成猴子死亡
**划重点:**1.🚨马斯克再次声称Neuralink未导致猴子死亡,但至少12只猴子在芯片植入后死亡。2.🐒Neuralink声称在早期试验中使用濒临死亡的猴子,引起争议。3.🏥反动物实验组织揭露公共记录显示,在UC戴维斯,至少12只猴子死于Neuralink设备植入。站长网2023-11-30 12:01:240000“AI巨头”李一舟凉了,还有多少人在靠贩卖焦虑狂赚?
“名师太多,到底要跟谁学Sora”,正成为大批对AI焦虑的人们一大困扰。Sora是OpenAI在2月16日凌晨发布的一款文生视频工具,相比于其他同类型产品,Sora生成的视频成长达60秒、1080P高质量视频,其中包含精细复杂的场景、生动的角色表情,以及复杂的镜头运动,无限贴近现实世界。站长网2024-02-23 09:07:590000科技公司担忧,澳大利亚新标准或削弱AI保护在线安全能力
划重点:1.澳大利亚新发布的在线安全标准,被科技公司如微软、Meta等指责可能影响AI系统保护儿童安全和防范恐怖主义材料的效能。2.标准针对生成式人工智能(generativeAI)潜在的滥用潜力,但微软等公司表示其侦测有问题内容的能力可能受损。3.技术公司担心新标准可能使AI训练受限,降低其对儿童虐待和恐怖主义材料的精准侦测,强调AI在内容审查中的关键作用。站长网2024-02-29 16:18:420000微软AI研究提出AI模型HMD-NeMo:可基于部分手部动作准确生成全身动作
**划重点:**1.🌐微软MixedReality&AILab的研究人员提出HMD-NeMo,一种新的神经网络模型,能够在手部部分可见的情况下生成真实和准确的全身动作。2.🧠HMD-NeMo采用时空编码器和新颖的可调节时间蒙版token(TAMT),在实时和在线情景下操作,解决了虚拟现实中全身动作生成的挑战。站长网2023-11-14 16:24:360000