创新免费AI视频创作工具Show-1,仅占普通模型25%GPU内存
文章概要:
1. 新加坡国立大学研究团队成功研发出名为Show-1的AI系统,能够从文本描述中生成高质量视频。
2. Show-1采用像素和潜变模型的混合架构,充分利用了两种方法的优势,实现了文本到视频的精确对齐和高效放大。
3. 与纯像素模型相比,Show-1仅需使用20-25%的GPU内存,同时在逼真度和文本到视频对齐方面实现了相同或更好的结果。
新加坡国立大学的研究团队最近成功研发了一款名为Show-1的AI系统,该系统可以将文本描述转化为高质量视频。这一突破性的技术在AI领域引起了广泛的关注,被誉为最佳的免费AI视频创作工具之一。

Show-1的研发团队采用了一种混合架构,将像素和潜变模型相结合,以充分发挥两种方法的优势。像素模型直接处理像素值,因此能够更好地与文本提示对齐,但需要大量计算资源。潜变模型则将输入压缩到潜变空间,然后进行扩散。虽然更加高效,但在保留精细文本细节方面存在困难。
Show-1模型将这两种模型架构相结合:像素模型用于生成关键帧和低分辨率插值图像,捕捉与文本提示接近的所有运动和内容。然后,潜变模型用于将低分辨率视频放大到高分辨率。潜变模型充当“专家”,以添加逼真的细节。这种混合方法将像素模型的精确文本到视频对齐与潜变模型的高效放大相结合,取得了最佳效果。
根据研究团队的介绍,Show-1在逼真度和文本到视频对齐方面取得了与Imagen Video或Runways Gen-2等最先进方法相同或更好的结果,同时仅需使用纯像素模型生成视频所需GPU内存的20-25%。这一特点也使得Show-1对开源应用具有吸引力。
Show-1具有以下产品特色功能:
像素级和潜在级结合:Show-1独创性地将像素级和潜在级VDMs相结合,充分发挥了两者的优点,以实现文本到视频的生成。这一特色使其在保持高效性的同时能够实现精确的文本与视频对齐。
高质量视频生成:通过首先使用像素级VDMs生成具有强文本-视频关联性的低分辨率视频,然后使用潜在级VDMs进行进一步上采样,Show-1能够生成高质量的视频,确保了视频的视觉质量。
高效性:与像素级VDMs相比,Show-1在推理期间的GPU内存使用效率更高,显著减少了计算资源的需求,从而提高了效率。
文本视频对齐:Show-1注重确保生成视频与文本提示之间的精确对齐,这意味着生成的视频能够更好地反映文本描述的内容,提高了生成视频与文本一致性。
开源代码和模型权重:作者公开提供了Show-1的代码和模型权重,这意味着研究社区和开发人员可以自由地使用和构建在此模型的基础上进行进一步研究和开发。
总之,Show-1是一种先进的文本到视频生成模型,通过融合不同级别的VDMs,它能够高效地生成高质量、精确对齐的视频,并且具有开放的代码和模型权重,可用于各种应用,如视频生成、自动生成影片等。
Show-1项目网址:https://showlab.github.io/Show-1/
昨天,黄仁勋举办了一场“AI春晚”
“坐在这个会场里的你我他,代表世界上100万亿美元的行业。”自从ChatGPT横空出世、生成式AI爆火后,人们惊奇地发现,英伟达在AI芯片领域的市占率居然超过了90%。随后,它的股价就像火箭一样狂涨,市值已经突破了2.2万亿美元(15.8万亿元人民币,比广东省的GDP还要高)。于是,英伟达举办的“GTC开发者大会”,就成了全球AI产业的年度盛会,江湖人称“AI春晚”。0000年入百万or吃不上饭,网文行业浮沉,最终涌向短剧?
1月11日,话题#00后网文作家被爆年入百万#登上热搜。据闻,这位作者还入选了2023年网络文学榜样作家“十二天王”,这位作者目前还在大四就读。网文、计算机、数据处理等热门行业不断制造“高薪”神话。特别是网络文学行业,从数年前的天下霸唱、当年明月登上作家富豪榜,唐家三少收入1.1亿,到如今的00后作者年入百万……网文现在是许多年轻人的热门副业之选。站长网2024-01-24 14:35:480000手机将增加未成年人模式!网信办:青少年模式将升级为未成年人模式
今日,国家互联网信息办公室发布了关于《移动互联网未成年人模式建设指南(征求意见稿)》公开征求意见的通知。意见反馈截止日期为2023年9月2日。网信办表示,近年来,国家网信办指导网站平台持续推进青少年模式建设,扩大覆盖范围,优化功能设置,丰富适龄内容。模式自上线以来,普及率稳步提升,在帮助未成年人减少网络沉迷和不良信息影响方面发挥了积极作用。站长网2023-08-02 11:26:490000比尔·盖茨:人工智能未来或将“取代”搜索引擎和在线购物网站
微软联合创始人比尔盖茨警告称,人工智能助手可能会通过深刻改变在线用户的行为,进而取代谷歌搜索等搜索引擎。站长网2023-05-24 11:07:510000Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”
要点:Meta发布了名为FACET的数据集,用于探测计算机视觉模型对某些“类别”人群的偏见。FACET包含32000张图片,50000人的图像,标注了职业和活动“类别”,以及人口统计和身体特征。FACET可用于测试模型在不同人口属性上的分类、检测、分割和定位任务的公平性。站长网2023-09-01 14:28:160000