大佬拆解Sora工作原理 看完你就知道Sora为什么这么牛了
Sora是一款独特的视频生成工具,其工作原理深入浅出,值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧,而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,而是处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。
时空立方体:
通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。
剖析描述并确定了核心要素:
• 物体(盛开的花朵、阳光普照的窗台)
• 行动(随着时间的推移而增长)
• 位置(郊区环境)
• 甚至艺术风格(定格动画美学)
为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。
在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。
尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。
拆解原文地址:https://twitter.com/thatguybg/status/1759935959792312461
猜你想看:
Sora怎么用?sora提示词大全:超100个Sora专属提示词
sora怎么用?sora从哪里下载?sora提示词教程 附30个sora提示词案例
Sora怎么用?附详细Prompts及使用入口地址
Runway最强竞争对手来了,一键生成短视频,限时免费开放使用
最近一段时间,AI作画的水平正在突飞猛进。在Midjourney、AdobeFirefly不断布局、落地图片生成技术的同时,有创业公司已经把眼光放到了视频生成上。本周,推特上出现了不少新AI工具生成的短视频,引发了人们关注。这其中既有AI生成的「赛博朋克电影预告片」。也有自然风格的动植物景象:「日本的旅游风光」。站长网2023-08-27 13:43:070000图片、视频直接生成3D高斯分布!免费体验,已正式商用
图源备注:图片由AI生成,图片授权服务商Midjourney知名3D扫描应用企业Polycam在官网宣布,结束对3DGAUSSIANSPLATS(以下简称“3DGS”)的测试,正式投入商业使用。站长网2023-11-12 10:39:0400011交个朋友,逃不过“三年之痒”
近日,交个朋友公司迎来开播三周年的纪念日。4月1日,罗永浩带领交个朋友的主播天团在抖音“交个朋友直播间”为网友们举办许愿大会,多名网友的愿望得到实现。截至4月3日凌晨2点,抖音“交个朋友直播间”三周年庆典累计销售额超过2.1亿元,累计观看人数超1200万。由于踩中了直播电商的时代风口,交个朋友得以在三年时间内迅速扩张。站长网2023-04-13 09:24:060000Midjourney新网站上线 新增灯光模式、灯箱功能等
Midjoureny经过一番努力,终于上线了全新版本的网站,使用体验得到了极大的提升。首先,最令人瞩目的改进是图片搜索速度的大幅提升,从网站显示到图片生成都将变得迅捷高效。一旦一切正常运行,这个新网站将很快取代现有的网站。体验地址:https://beta.midjourney.com/home这次更新的亮点包括:站长网2023-10-26 14:41:360000产业链人士:苹果 iPhone 15 Pro 系列取消固态按键设计属实 延后可能性大
日前分析师郭明錤分享的最新信息称,下一代iPhone15Pro和iPhone15ProMax将不再采用固态按钮,原因是「在大规模生产前尚未解决技术问题」。站长网2023-04-13 08:58:340000