Stability AI推出视频生成模型Stable Video Diffusion
**划重点:**
1. 🎥 Stability AI发布开源的视频生成模型Stable Video Diffusion,基于其现有的Stable Diffusion文本转图像模型,可通过动画化现有图像生成视频。
2. ⚠️ 模型目前处于“研究预览”阶段,使用者需同意特定使用条款,限制其应用于“教育或创意工具”等领域,禁止用于“真实事件或人物的表现”。
3. 💰 Stability AI计划商业化应用,已筹集超过1.25亿美元资金,但面临财务困境和高烧钱速度。公司前高管离职,曾提出更严格的版权使用方针。
Stability AI近日推出了名为Stable Video Diffusion的视频生成模型,该模型基于该公司现有的Stable Diffusion文本转图像模型,能够通过对现有图像进行动画化生成视频。与其他AI公司不同,Stable Video Diffusion在开源领域提供了少数几个视频生成模型之一。
然而,需要注意的是,该模型目前处于“研究预览”阶段,使用者必须同意特定的使用条款,明确规定了其预期应用领域,如“教育或创意工具”等,同时禁止用于“真实事件或人物的表现”。考虑到过去类似AI研究预览的历史,有可能该模型很快会在暗网上流传,引发对其滥用的担忧,特别是因为它似乎没有内置的内容过滤器。
Stable Video Diffusion提供两个模型,分别为SVD和SVD-XT。其中,SVD将静止图像转换为14帧的576x1024视频,而SVD-XT在相同的架构下将帧数提升至24。这两者都能以每秒3到30帧的速度生成视频。白皮书显示,这两个模型最初在数百万个视频的数据集上进行训练,然后在数十万到百万数量级的较小数据集上进行“微调”。
模型生成的四秒视频片段质量相当高,被认为在某些方面可以与Meta、Google以及其他AI初创公司的视频生成模型相媲美。然而,Stable Video Diffusion存在一些局限性,例如不能生成没有运动或慢速摄像机移动的视频,无法通过文本控制,不能呈现文本(至少不能清晰可辨认),也不能一致地生成面部和人物。
尽管存在这些局限性,Stability AI指出这些模型是相当可扩展的,并可适应生成物体的360度视图等用例。公司计划推出“一系列”建立在SVD和SVD-XT基础上并扩展其功能的模型,以及一款将文本提示引入网络模型的“文本到视频”工具。最终目标是商业化,认为Stable Video Diffusion在“广告、教育、娱乐等领域都具有潜在应用”。
然而,Stability AI目前面临财务问题。据报道,公司最近通过可转债筹集了2500万美元,使其总融资达到1.25亿美元。但是,公司并未以更高的估值完成新一轮融资,最后一次估值为10亿美元。Stability AI曾计划在未来几个月内寻求四倍于此的估值,尽管公司收入较低,烧钱速度较高。
在这一时期,Stability AI还面临一次高管离职。公司副总裁Ed Newton-Rex在一份公开信中表示,他因对如何使用版权数据进行争论而离开了公司。这也是公司面临的另一次挫折,因为Newton-Rex曾在稳定AI音乐生成工具Stable Audio的推出中扮演了关键角色。
官方演示视频: https://www.youtube.com/watch?v=G7mihAy691g
Bing Chat创意和精确模式全面采用GPT-4
文章概要:1.微软搜索主管MikhailParakhin确认BingChat在创意和精确模式下100%采用GPT-4。2.微软同时使用多种语言模型,包括GPT-4Prometheus和Bing自有的图灵语言模型。3.尽管大力宣传AI聊天和GPT-4,微软仍在与Google竞争中努力夺回市场份额。站长网2023-09-18 10:17:310000智源研究院开源代码生成训练数据集与评测基准TACO
TACO是一个专注于算法的代码生成数据集,旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。与当前主流代码评测基准相比,TACO在数据规模、数据质量和细粒度评测方案上具有明显优势。它包括更大规模的训练集和测试集,每个题目都具备多样化的解题答案,并提供了细粒度的标签,如任务主题、算法、编程技能和难度等级。站长网2023-12-25 18:52:260001LG发布其首个采用生成式AI制作的视频广告 成本仅需三分之一
韩国第三大移动运营商LGUplusCorp.于周二发布了首个使用生成式人工智能(AI)的视频广告。据了解,该广告是为20多岁年轻人推出的Uth青年计划而制作的,使用生成式AI来构思、图像、视频和音频。这是业内首次使用生成式AI资源制作广告。站长网2023-07-04 14:43:480000全国高校首例!南京大学将开设AI通识课程
快科技2月27日消息,据媒体报道,南京大学宣布将会推出全国高校首家针对3700余名新生的1XY”三层次人工智能通识核心课总体方案。据悉,该方案的核心组成部分包括一门必修的人工智能通识核心课,这门课程将从2024年起面向全体本科新生开设。站长网2024-02-27 21:09:360000谷歌Bard升级:可实时生成回复 不用等待
谷歌的聊天机器人Bard进行了一次重大升级,现在可以提供更快速的实时回复选项,使用户的互动体验更加流畅。大型语言模型(LLMs)通常需要一定时间来生成答案,这导致了用户在提问和获得答案之间存在一定的延迟。然而,现在,谷歌Bard已经改善了这一点,使用户能够更加迅速地获得回复。站长网2023-10-30 14:33:310000