Nvidia公布新文本转视频模型 基于Stable Diffusion开发!
Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。
该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以512x1024像素的分辨率生成几分钟的汽车行驶视频,在大多数基准测试中达到SOTA。
注:图片来自Nvidia Video LDM项目截图
除了这个与自动驾驶研究特别相关的演示之外,研究人员还展示了如何将现有的Stable Diffusion 型转换为视频模型。
该团队在微调步骤中用视频数据短时间训练Stable Diffusion,然后在网络中每个现有空间层后面添加额外的时间层,并用视频数据对其进行训练。此外,该团队还训练了时间稳定的放大器,以根据文本提示生成1,280x2,048分辨率的视频。
以 Stable Diffusion 作为视频模型的基础,团队无需从头开始训练新模型,可以从现有的能力和方法中获益。例如,尽管使用的 WebVid-10M 数据集仅包含真实世界的视频,基于底层的Stable Diffusion模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。
研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。,生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用 DreamBooth 进行视频创作。
注:Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型。
Nvidia Video LDM项目页面上有更多示例,不过该模型目前尚未对外开放。
项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
首搭易三方技术平台!腾势Z9 GT预售:33.98万起
快科技8月20日消息,今日晚间,比亚迪举办2024腾势汽车科技日暨腾势Z9GT预售发布会。腾势Z9GT共推出5款车型,有三厢和两厢两种造型,插混车型有三款,售价区间为33.98-41.98万元;纯电版有两款,售价分别为35.98万和38.98万元。新车将于9月初开启全国的试驾,九月下旬正式上市,上市即交付;三厢版的腾势Z9,预计四季度上市即交付。站长网2024-08-20 23:31:380000比5G强10倍!华为重大突破:5.5G关键技术测试全面完成
快科技10月22日消息,在IMT-2020(5G)推进组的组织下,华为已于9月11日率先完成5G-A全部功能测试。据华为中国”公众号介绍,近日,华为又全面完成5G-A技术性能测试。测试结果表明,华为在多项5G-A上下行超宽带技术上取得重大性能突破。并且首次将端到端跨层协同技术应用在5G-A宽带实时交互上,在容量和时延方面实现关键进展。00004月,国内大模型遍地开花
ChatGPT的火热掀起了国内外对大模型的探索热情,即便是一边呼吁暂停AI研究以防“失控的人工智能”的马斯克,近期也被曝正在推特内部启动人工智能项目。不管是差GPT“2个月”还是“3年”,国内大模型一夜之间已经遍地开花。继百度打响国内大模型第一枪后,目前阿里、京东、华为等互联网大厂,商汤、昆仑万维等科技公司也纷纷推出了自家的大模型,包括内容平台知乎也在4月13日推出了中文大模型“知海图AI”。0000微软CEO在英国和欧盟调查中称与OpenAI合作“有利于竞争”
划重点:-🤝微软首席执行官萨蒂亚・纳拉表示,微软与人工智能公司OpenAI的合作是为了在人工智能领域与已整合参与者展开竞争。-🧐纳德拉认为监管机构可能会对这种合作关系产生竞争关注,但他认为合作对于促进竞争是必要的。-💼微软最近超越苹果成为全球最有价值的公司,纳德拉对公司的成功感到自豪,并表示将继续关注未来发展。站长网2024-01-17 11:29:100000用AI大模型「改造」QQ浏览器搜索,腾讯独家揭秘
1:引言自从搜索引擎问世以来,信息检索算法历经多次技术更迭,其演进的历程可大致归纳为四个技术代际:1.0文本索引->2.0超链分析->3.0机器学习->4.0深度学习。2022年底,ChatGPT成为全球技术焦点,其具备的多轮对话、推理和对长文本的理解能力,解决了以往搜索引擎所无法有效解决的难题。站长网2023-11-20 09:21:300000