Open-Sora悄悄升级支持16秒视频生成和720p分辨率

站长网2024-04-26 00:47:350阅

Open-Sora 在开源社区悄悄更新了，现在，该项目不仅支持长达16秒的单镜头视频生成，而且视频分辨率最高可达720p，能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。

技术报告与模型架构:

Open-Sora技术报告已在GitHub上发布，详细介绍了新功能和模型架构。

作者团队对STDiT架构进行了关键性改进，提高了模型的训练稳定性和整体性能。

引入了旋转位置编码（RoPE embedding）和QK归一化技术，以增强训练稳定性。

ST-DiT-2架构能够自动缩放位置编码，处理不同大小尺寸的输入。

多阶段训练方法:

Open-Sora采用了多阶段训练方法，通过分步骤引入数据，高效实现高质量视频生成。

初始阶段视频采用144p分辨率，混训图片和更高分辨率视频。

第二阶段提升至240p和480p分辨率，第三阶段进一步增强至480p和720p。

统一的图生视频/视频生视频框架:

基于Transformer，DiT架构可支持图像到图像及视频到视频任务。

提出掩码策略来支持图像和视频的条件化处理。

掩码策略配置:

引入了随机掩码策略，以随机方式选择并取消掩码的帧，提高模型处理图像条件化的能力。

支持多时间/分辨率/长宽比/帧率训练:

通过分桶策略，使用原始视频的分辨率、长宽比和长度进行训练，增加采样灵活性。

数据收集和预处理流程:

作者团队提供了详尽的数据收集与处理指南，分享了自动化的数据处理流程。

性能全方位评测:

Open-Sora能够将文字描述转化为动人的动态视频，支持多种内容、分辨率、长宽比和时长的生成。

尽管取得了进展，但当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分方面仍有待改进。作者团队将在下一版本中优先解决这些挑战。

项目地址：https://top.aibase.com/tool/open-sora

体验地址：https://huggingface.co/spaces/hpcai-tech/open-sora

OpenSora悄悄升级支持16秒视频生成和720p分辨率

0000

评论列表

共(0)条

相关推荐

站长资讯
男子用AI换脸非法牟利杭州检方提起公诉
萧山区检察院最近对涉嫌制作传播淫秽物品牟利罪的被告人虞某某提起了公诉。在审查中，该院发现虞某某的行为不仅涉嫌刑事犯罪，而且还涉及到损害社会公共利益的行为。
站长网2023-06-21 16:47:42
0000
站长资讯
阿里云四大金刚简史
阿里集团分拆后，所有人都想知道，谁会成为最先上市的新公司。一定程度上，这代表业务独立性强，潜力大，也更受资本市场欢迎。阿里云智能是热门选手之一。在官方给出的实施方案中，以阿里云和钉钉为核心的云智能业务是拆分最彻底的板块。在股权和公司治理上，是一家与阿里集团完全独立的新公司。时间表也已经给出:未来12个月内完成拆分和上市。
站长网2023-06-10 08:59:51
0000
站长资讯
继苹果DMA变更后，Opera 将在欧洲推出适用于 iOS 的全新 AI 浏览器
站长之家(ChinaZ.com)1月29日消息:挪威浏览器开发商Opera今天宣布，他们计划在欧洲推出一款全新的人工智能浏览器，该浏览器将基于Opera自家的iOS引擎构建。这一宣布是在苹果公司表示将允许替代浏览器引擎在iOS上运行之后的消息，这一变化是应欧洲数字市场法案（DMA）的要求。
站长网2024-01-29 09:33:59
0001
站长资讯
当“大胃王”被遗忘，年轻人捧红零食博主
“对于小孩来说太幼稚，对大学生和成年人来说刚刚好。”又是一年儿童节，不少成年人也不忘“过节”，而其中一项仪式便是跟着零食主播买零食。
站长网2023-06-02 16:05:46
0003
站长资讯
腾讯海外游戏投资“时间线”：近百次出手，站在3A大作的身后
2024年夏天，3款3A游戏以不同的方式再次引发了全球玩家的热议。在巴黎奥运会开幕式上，一位神秘的跑酷火炬手让人联想到《刺客信条》系列的标志性角色。这款由法国游戏巨头育碧开发的IP，多年来在全球积累了庞大的粉丝基础。其中，以法国大革命为背景的第8代刺客信条《刺客信条:大革命》是这一系列中最知名、销量最高的版本之一。
站长网2024-08-01 17:56:51
0000