英伟达出品!文生图模型TrailBlazer:利用边界框控制视频对象轨迹
划重点:
🔍 该论文介绍了一种使用边界框来引导视频合成的方法,实现了视频的可控性。
🔍 通过简单的边界框引导,可以实现对视频中物体轨迹和外观的控制。
🔍 TrailBlazer 算法基于预训练模型,无需进一步训练、微调或在线优化。
在最近的文本到视频生成(T2V)方法中,实现合成视频的可控性通常是一个挑战。通常情况下,为了解决这个问题,需要提供低级别的每帧指导,如边缘图、深度图或待修改的现有视频。然而,获取这样的指导可能需要大量的劳动力,并且限制于现有视频会限制创造力。
TrailBlazer是英伟达的一个预训练好的模型,他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为,而无需使用现有视频或在推理时进行神经网络训练、微调或优化。例如,你可以通过改变边界框的大小、方向,让视频中的对象看起来更接近或更远离,也可以控制移动方向。
TrailBlazer 算法基于预训练的 T2V 模型构建,易于实现。通过边界框来引导物体,在空间和时间上进行注意力图编辑。
此外,TrailBlazer支持通过对移动的边界框和相应提示进行关键帧设置,来指导物体的轨迹和外观,无需提供详细的掩码。该方法非常高效,与底层预训练模型相比,附加计算量几乎可以忽略不计。尽管边界框引导的简单性,生成的运动令人惊讶地自然,出现了透视和随着边界框尺寸增大而向虚拟相机移动的效果。
TrailBlazer 还支持通过关键帧设置来动画化边界框和提示,使用户能够在时间轴上改变物体的轨迹和粗略行为。生成的物体与指定的环境无缝衔接,为非专业用户提供了一个可行的视频叙事流程。
TrailBlazer 算法有一些局限性,其中包括继承了底层预训练模型(ZeroScope)的限制,如动物的错误肢体数目等问题,这些问题在许多基于扩散的 T2I 和 T2V 方法中普遍存在。
TrailBlazer的主要功能特点如下:
1. 文本到视频扩散(text-to-video diffusion):使用预训练模型进行视频编辑,无需进一步的模型训练、微调或在线优化。
2. 支持控制多个对象:如果视频中有多个人物或物体,TrailBlazer允许您同时控制它们的动作,这对于创造复杂的场景非常有用。
3. 利用简单的边界框进控制对象:通过使用简单的边界框来指导主题的运动,而无需使用预先存在的视频或在推理时进行神经网络训练、微调或优化。
4. 关键帧动画:可以在视频中设置“关键帧”,在这些关键帧上定义对象的位置和动作。
5. 高效且自然的运动生成:尽管使用简单的边界框进行指导,TrailBlazer生成的运动效果仍然非常自然,包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。
项目演示网址:https://top.aibase.com/tool/trailblazer
论文网址:arxiv.org/abs/2401.00896
AI视野:谷歌Gemini Pro开放;文心一言插件商城上线;谷歌图像生成模型Imagen2发布;阿里推虚拟试穿技术Outfit Anyone
📰🤖📢AI新鲜事谷歌GeminiPro开放谷歌GeminiPro大模型在研究基准测试中表现优异,支持32K上下文窗口的文本输入和生成功能,向VertexAI云计算客户和AIStudio开发人员开放,提供多种功能和SDK,为构建AI应用程序提供更多可能性。【AiBase提要:】站长网2023-12-14 15:37:080000Anthropic 与 BCG 结成新联盟 为客户提供企业级人工智能服务
人工智能独角兽初创公司Anthropic以其Claude2大语言模型(LLM)助手挑战OpenAI的ChatGPT而闻名,该公司正在将其产品提供给更多企业。今天,由DarioAmodei领导的该公司宣布,它已与波士顿咨询集团(BCG)合作,为其客户提供与Claude2和Anthropic的AI技术的「直接访问」。站长网2023-09-15 09:52:330000毕马威:亚太地区对AI的关注显著增长,未来一年将有更多AIGC应用
毕马威(KPMG最新报告显示,随着人工智能(AI)在全球范围内的快速发展,亚太地区投资者和企业对探索如何将AIGC应用于其金融科技项目的关注度显着提高。毕马威方面表示,现在很多初创企业都专注于为金融科技行业开发人工智能和AIGC。尽管技术应用尚未成熟,但由于人工智能仍被广泛认可,相信未来6至12个月将会有更多AIGC相关的实际应用。站长网2023-08-15 15:05:580002Reddit要收取API访问费,盯着AI厂商来薅羊毛
进入2023年后,或许已经鲜少有网友还没听过ChatGPT这个大名。这一继元宇宙之后出现的“新浪潮”,俨然已经成为了今年科技圈的风口,包括海外市场的微软、谷歌、亚马逊,以及国内的百度、阿里、腾讯、字节跳动在内,几乎但凡有一定技术实力的科技厂商也悉数下场,即便是技术力不够的厂商也是八仙过海各显神通,有诸如知乎这样联手合作伙伴的,也有像“美国贴吧”Reddit这样“卖资源”的。站长网2023-05-02 09:31:500000亚马逊开发新对话式AI“Olympus” 缩小与OpenAI、微软差距
据外媒报道,亚马逊正在开发新的对话式人工智能软件,旨在迎头赶上OpenAI和微软,向企业客户销售此类软件。亚马逊的新大型语言模型代号为“Olympus”,可能还将为其在线零售店、Alexa语音助手和亚马逊网络服务等设备提供新功能。有消息称,该软件最快将于12月份发布。站长网2023-11-08 10:18:280000