Nvidia公布新文本转视频模型 基于Stable Diffusion开发!
Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。
该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以512x1024像素的分辨率生成几分钟的汽车行驶视频,在大多数基准测试中达到SOTA。

注:图片来自Nvidia Video LDM项目截图
除了这个与自动驾驶研究特别相关的演示之外,研究人员还展示了如何将现有的Stable Diffusion 型转换为视频模型。
该团队在微调步骤中用视频数据短时间训练Stable Diffusion,然后在网络中每个现有空间层后面添加额外的时间层,并用视频数据对其进行训练。此外,该团队还训练了时间稳定的放大器,以根据文本提示生成1,280x2,048分辨率的视频。
以 Stable Diffusion 作为视频模型的基础,团队无需从头开始训练新模型,可以从现有的能力和方法中获益。例如,尽管使用的 WebVid-10M 数据集仅包含真实世界的视频,基于底层的Stable Diffusion模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。
研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。,生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用 DreamBooth 进行视频创作。
注:Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型。
Nvidia Video LDM项目页面上有更多示例,不过该模型目前尚未对外开放。
项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
微软提供免费的Azure应用程序“Private ChatGPT”
日前,Microsoft已经推出了AzureChatGPT作为企业的私有替代方案。AzureChatGPT是一种安全的ChatGPT解决方案,适用于那些使用Azure云和在Microsoft服务器上进行数据处理的企业。与WebChatGPT相比,AzureChatGPT提供相同的服务,但具有内置的数据隐私保护和与OpenAI完全隔离的功能。站长网2023-08-16 15:18:090001用AI干预老年痴呆治疗!微软联合上海“600号”
快科技9月22日消息,据媒体报道,近日,微软亚洲研究院与上海市精神卫生中心(俗称600号”)展开合作,共同探索使用人工智能技术干预阿尔茨海默症的治疗方法。面对全球人口老龄化趋势,阿尔茨海默病等认知症成为重大健康挑战,目前尚无药物能完全治愈阿尔茨海默病,但及早诊断和干预可延缓病程。此次合作基于微软AzureOpenAI服务中的多模态大模型,开发了名为忆我”(ReMe)的个性化认知训练框架。0000昆仑万维:已开启双千亿级大语言模型“天工3.5”邀请测试
昆仑万维公布了2023年第一季度的财务业绩报告。在该季度,昆仑万维的营业收入达到了12.2亿元人民币,净利润归属于上市公司股东的净利润为2.1亿元人民币,经营性净利润为1.7亿元人民币,同比增长70%。站长网2023-04-28 08:19:410000OpenAI首次跻身胡润世界500强 估值达500亿美元
胡润研究院今日发布《2023胡润世界500强》报告,其中首次包括了世界500强中的非国有企业。根据报告,OpenAI以500亿美元的估值首次进入胡润世界500强,而该公司目前正在洽谈以860亿美元的估值筹集新一轮融资。根据报告,进入胡润世界500强的门槛相比去年提高了7%,即145亿元,至2170亿元人民币。总价值比去年增长了12%,即42万亿元,至382万亿元。站长网2024-01-31 11:11:020000H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型
声明:本文来自于微信公众号新智元(ID:AI_era),作者:桃子润,授权站长之家转载发布。【新智元导读】H100让模型推理性能最高跃升8倍!英伟达最新开源软件TensorRT-LLM,将彻底改变LLM推理现状。「GPU贫民」即将告别困境!刚刚,英伟达发布了一款开源软件TensorRT-LLM,能够加速H100上大型语言模型的推理。那么,具体能提升多少倍?站长网2023-09-11 09:13:300002