大佬拆解Sora工作原理 看完你就知道Sora为什么这么牛了
Sora是一款独特的视频生成工具,其工作原理深入浅出,值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧,而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,而是处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。
时空立方体:
通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。
剖析描述并确定了核心要素:
• 物体(盛开的花朵、阳光普照的窗台)
• 行动(随着时间的推移而增长)
• 位置(郊区环境)
• 甚至艺术风格(定格动画美学)
为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。
在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。
尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。
拆解原文地址:https://twitter.com/thatguybg/status/1759935959792312461
猜你想看:
Sora怎么用?sora提示词大全:超100个Sora专属提示词
sora怎么用?sora从哪里下载?sora提示词教程 附30个sora提示词案例
Sora怎么用?附详细Prompts及使用入口地址
京东放不下社区团购
京东终究还是放不下社区团购。近日,京东社区团购业务“京喜拼拼”发布了品牌升级公告。公告称,自7月27日起,京喜拼拼将正式更名为京东拼拼。品牌升级之后,京喜拼拼小程序图标、名称、logo等将逐步更新为“京东拼拼”,小程序原有功能将被保留。这意味着,京东将通过全新的名字重新杀入熟悉的赛道社区团购。这既是京东熟悉的战场,也是京东曾经铩羽而归的赛道。站长网2023-07-28 18:01:400000AI能否通过CFA考试?研究结论:目前还不行
划重点:-大规模语言模型(LLM)如ChatGPT和GPT-4在通过CFA考试方面存在挑战。-研究结果显示GPT-4表现明显优于ChatGPT,但仍面临挑战,尤其是在更高级别的考试中。-针对CFA考试的专门培训和知识获取可能是提高AI在金融领域表现的关键。站长网2023-10-18 21:24:270000前谷歌研究人员筹集 3000 万美元在日本开发人工智能
**划重点:**1.🚀**资金规模:**SakanaAI宣布成功筹集3000万美元的种子轮融资。2.💼**投资方阵容:**美国LuxCapital和KhoslaVentures领投,索尼、NTT、KDDI等知名公司也参与投资。3.🤖**研发重心:**公司将专注于未来一两年的研发,探索基于更小型“代理”网络的人工智能系统。站长网2024-01-17 11:13:550003DeepMind 2022 年财告显示员工成本削减 39%,利润下降 40%
文章概要:1.DeepMind削减员工成本:Alphabet旗下的欧洲AI实验室DeepMind在2022年削减员工成本39%。员工成本从2021年的近12亿美元降至2022年的近7.31亿美元。2.利润下降:同期利润下降超过40%,从2021年的近1.26亿美元降至2022年的近7490万美元。站长网2023-10-12 09:57:2600002024 中国最佳品牌排行榜发布:腾讯第一 阿里第二
今天,全球知名品牌战略咨询公司Interbrand发布了《2024中国最佳品牌排行榜》。根据这份报告,上榜的品牌总价值高达33712.6亿元,超过六成的品牌在这一年中实现了价值的上升。这一切都展现了中国品牌的强大韧性和创新能力。站长网2024-09-04 08:53:380000