大佬拆解Sora工作原理 看完你就知道Sora为什么这么牛了
Sora是一款独特的视频生成工具,其工作原理深入浅出,值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧,确保视频中的动作流畅自然。

Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧,而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,而是处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。
时空立方体:
通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。
剖析描述并确定了核心要素:
• 物体(盛开的花朵、阳光普照的窗台)
• 行动(随着时间的推移而增长)
• 位置(郊区环境)
• 甚至艺术风格(定格动画美学)
为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。
在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。
尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。
拆解原文地址:https://twitter.com/thatguybg/status/1759935959792312461
猜你想看:
Sora怎么用?sora提示词大全:超100个Sora专属提示词
sora怎么用?sora从哪里下载?sora提示词教程 附30个sora提示词案例
Sora怎么用?附详细Prompts及使用入口地址
元象 XVERSE 与腾讯音乐推出 lyraXVERSE 加速大模型
元象XVERSE与腾讯音乐合作推出lyraXVERSE加速大模型,将应用于音乐助手“AI小琴”中。用户可以通过点击QQ音乐上的“AI一起听”按键来与升级版的“AI小琴”互动,她将根据用户的提问、播放习惯和心情提供闲聊、推歌、音乐解读和词曲创作等服务。站长网2023-10-25 09:12:220000BOSS直聘崩了上热搜 官方回应:目前已恢复
今日9点30分左右,#boss直聘崩了#登上微博热搜,有网友表示,boss直聘PC平台的相关页面无法加载。就在刚刚,针对上述情况,BOSS直聘官方回应称,今日上午部分用户使用BOSS直聘PC端时,部分功能出现异常,经过紧急抢修,目前已恢复,很抱歉给大家带来不便。站长网2023-05-24 11:18:520000微信鸿蒙原生版开启公测!腾讯张军:最近每晚都会发放测试名额
快科技10月13日消息,华为HarmonyOSNEXT在10月8日正式启动公测,微信鸿蒙原生版也在同一天开启了内测。经过几天测试后,日前微信已经正式上架了HarmonyOSNEXT应用市场,开启公测阶段,不过目前并不是完全开放不限量,而是需要抢名额,首批在上架后就火速抢光。站长网2024-10-15 11:43:340000苹果官网罕见大降价 华为回应苹果促销:称暂无促销计划
站长之家(ChinaZ.com)1月16日消息:近日,苹果中国官网宣布将在1月18日至21日期间进行“迎新春限时优惠”活动,其中iPhone15系列4款机型降价500元,部分笔记本电脑产品最高降价800元。这一举措引起了业界的广泛关注。然而,与苹果的降价策略不同,华为却表示目前暂无促销计划。在销售人员看来,华为手机目前一机难求,正常销售都供不应求,更别提降价促销了。站长网2024-01-16 10:55:490000马上消费发布“天镜”零售金融大模型
8月28日,马上消费金融股份有限公司在金融大模型发展论坛上发布了首个零售金融大模型——"天镜"。马上消费通过构建"三纵三横"的大模型发展技术布局,聚焦基础语言特性能力、逻辑和推理能力、语义理解、生成与创作、金融领域能力、安全与合规能力等六个核心领域,推动金融数字化转型。站长网2023-08-29 11:08:130000