Open-Sora悄悄升级 支持16秒视频生成和720p分辨率
Open-Sora 在开源社区悄悄更新了,现在,该项目不仅支持长达16秒的单镜头视频生成,而且视频分辨率最高可达720p,能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。
技术报告与模型架构:
Open-Sora技术报告已在GitHub上发布,详细介绍了新功能和模型架构。
作者团队对STDiT架构进行了关键性改进,提高了模型的训练稳定性和整体性能。
引入了旋转位置编码(RoPE embedding)和QK归一化技术,以增强训练稳定性。
ST-DiT-2架构能够自动缩放位置编码,处理不同大小尺寸的输入。
多阶段训练方法:
Open-Sora采用了多阶段训练方法,通过分步骤引入数据,高效实现高质量视频生成。
初始阶段视频采用144p分辨率,混训图片和更高分辨率视频。
第二阶段提升至240p和480p分辨率,第三阶段进一步增强至480p和720p。
统一的图生视频/视频生视频框架:
基于Transformer,DiT架构可支持图像到图像及视频到视频任务。
提出掩码策略来支持图像和视频的条件化处理。
掩码策略配置:
引入了随机掩码策略,以随机方式选择并取消掩码的帧,提高模型处理图像条件化的能力。
支持多时间/分辨率/长宽比/帧率训练:
通过分桶策略,使用原始视频的分辨率、长宽比和长度进行训练,增加采样灵活性。
数据收集和预处理流程:
作者团队提供了详尽的数据收集与处理指南,分享了自动化的数据处理流程。
性能全方位评测:
Open-Sora能够将文字描述转化为动人的动态视频,支持多种内容、分辨率、长宽比和时长的生成。
尽管取得了进展,但当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分方面仍有待改进。作者团队将在下一版本中优先解决这些挑战。
项目地址:https://top.aibase.com/tool/open-sora
体验地址:https://huggingface.co/spaces/hpcai-tech/open-sora
6·18前淘宝店铺迎来大改版,所有商家都可以“抢”的流量
这一次的改版,可能给了所有商家站在同一起跑线的机会。针对所有店铺的新机细心的人已经发现,在商家店铺里出现了“作品”一栏,里面的两个子菜单收录了店铺商品的笔记、买家秀和卖家秀。这些短视频会出现在淘宝的“猜你喜欢”中,消费者观看后,点击发布者头像,会直接跳转到店铺的“作品”板块,即内容首页。如果仅从用户在搜索和浏览上的习惯看,这个改动很聪明。站长网2023-05-22 20:14:290000OpenAI 联合创始人演示拥有惊人功能的官方版 「AutoGPT」
OpenAI联合创始人GregBrockman日前在Ted的演讲中分享了ChatGPT的基本设计原则,并展示了即将发布的官方版「AutoGPT」。站长网2023-04-24 16:36:440002千万粉丝网红被封,短视频进入整肃期
肉眼可见,短视频正在进入整肃期。9月2日,知名主播@秀才被封号。在抖音平台,@秀才自称39岁,来自亳州市蒙城县漆园镇,凭借顾家、勤劳、善良的形象走红,在抖音汇聚了1200万粉丝,作品获赞超2亿,曾被称为“中老年妇女收割机”“姨圈顶流”。被封号的@秀才站长网2023-09-18 18:27:020000英伟达核弹来了!RTX 5090售价再次曝光:想买准备2万预算
快科技11月23日消息,对于那些打算入手RTX5090的用户,至少要准备2万左右的预算,因为它注定不便宜。据外媒最新报道称,按照一些NV零售商流传出的消息,RTX5090的价格区间可能为1899至1999美元(折合人民币约14500元左右),其最快开卖时间预计在2月初左右(1月的CES大会上正式宣布这款显卡)。如果上述消息准确的话,那么RTX5090国行的显卡售价必然要超过15000元。0000快手上线自研文生图大模型产品“可图” 支持AI形象定制
站长之家(ChinaZ.com)5月31日消息:近日,快手自研的文生图大模型“可图”(KOLORS)正式对外开放,为用户带来了全新的AI图像创作体验。这款大模型不仅支持文生图和图生图两类功能,可用于AI创作图像以及AI形象定制。用户现在可以通过“可图”微信小程序或网页版轻松体验这项前沿技术。站长网2024-05-31 19:47:330000