英伟达出品!文生图模型TrailBlazer:利用边界框控制视频对象轨迹
划重点:
🔍 该论文介绍了一种使用边界框来引导视频合成的方法,实现了视频的可控性。
🔍 通过简单的边界框引导,可以实现对视频中物体轨迹和外观的控制。
🔍 TrailBlazer 算法基于预训练模型,无需进一步训练、微调或在线优化。
在最近的文本到视频生成(T2V)方法中,实现合成视频的可控性通常是一个挑战。通常情况下,为了解决这个问题,需要提供低级别的每帧指导,如边缘图、深度图或待修改的现有视频。然而,获取这样的指导可能需要大量的劳动力,并且限制于现有视频会限制创造力。
TrailBlazer是英伟达的一个预训练好的模型,他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为,而无需使用现有视频或在推理时进行神经网络训练、微调或优化。例如,你可以通过改变边界框的大小、方向,让视频中的对象看起来更接近或更远离,也可以控制移动方向。

TrailBlazer 算法基于预训练的 T2V 模型构建,易于实现。通过边界框来引导物体,在空间和时间上进行注意力图编辑。
此外,TrailBlazer支持通过对移动的边界框和相应提示进行关键帧设置,来指导物体的轨迹和外观,无需提供详细的掩码。该方法非常高效,与底层预训练模型相比,附加计算量几乎可以忽略不计。尽管边界框引导的简单性,生成的运动令人惊讶地自然,出现了透视和随着边界框尺寸增大而向虚拟相机移动的效果。
TrailBlazer 还支持通过关键帧设置来动画化边界框和提示,使用户能够在时间轴上改变物体的轨迹和粗略行为。生成的物体与指定的环境无缝衔接,为非专业用户提供了一个可行的视频叙事流程。

TrailBlazer 算法有一些局限性,其中包括继承了底层预训练模型(ZeroScope)的限制,如动物的错误肢体数目等问题,这些问题在许多基于扩散的 T2I 和 T2V 方法中普遍存在。
TrailBlazer的主要功能特点如下:
1. 文本到视频扩散(text-to-video diffusion):使用预训练模型进行视频编辑,无需进一步的模型训练、微调或在线优化。
2. 支持控制多个对象:如果视频中有多个人物或物体,TrailBlazer允许您同时控制它们的动作,这对于创造复杂的场景非常有用。
3. 利用简单的边界框进控制对象:通过使用简单的边界框来指导主题的运动,而无需使用预先存在的视频或在推理时进行神经网络训练、微调或优化。
4. 关键帧动画:可以在视频中设置“关键帧”,在这些关键帧上定义对象的位置和动作。
5. 高效且自然的运动生成:尽管使用简单的边界框进行指导,TrailBlazer生成的运动效果仍然非常自然,包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。
项目演示网址:https://top.aibase.com/tool/trailblazer
论文网址:arxiv.org/abs/2401.00896
明星演唱会井喷,谁在狂赚谁在血亏?
为了确保买到偶像TFBOYS西安演唱会门票,林希花了3500元找到专业代拍一起帮忙抢票。最后成功买到一张806元的门票,算下来,代拍费比票价本身还要贵,3500元差不多够买4张演唱会门票。除了代拍费和门票费用,再加上去西安的车费、酒店住宿费用,林希此次演唱会之行整体差不多需要5500元左右。0001美团外卖与顺丰同城、闪送、UU 跑腿达成合作
美团外卖宣布继续加强即时配送的合作生态建设,与顺丰同城、闪送、UU跑腿达成合作。美团外卖将结合自有配送体系,一起为商家打造更丰富的配送网络,共建合作共赢的即时配送行业生态。据悉,为了满足更好的配送体验,美团外卖将为合作订单提供相关保障服务。合作将给商家提供更丰富的运力选择、提升经营效率。站长网2023-08-28 10:51:060001特斯拉第三季度全球交付超43.5万辆 全年维持180万目标不变
日前,特斯拉正式对外公布了第三季度生产及交付报告。报告称,2023年第三季度,特斯拉全球范围内共计生产电动车超43万辆,同比增长约18%,交付超43.5万辆,同比增长27%。具体来说,2023年第三季度,ModelS和ModelX车型的产量为13688辆,交付量为15985辆;Model3和ModelY的产量为416800辆,交付量为419074辆。站长网2023-10-03 09:34:290001马斯克推出名为 Grok 的具有「叛逆倾向」的人工智能聊天机器人
特斯拉首席执行官马斯克最近推出了一款名为Grok的人工智能聊天机器人,该机器人受到《银河系漫游指南》的启发,具有「叛逆倾向」(rebelliousstreak)。尽管在上周警告说AI是「人类面临的最大威胁之一」,但马斯克表示,这款与ChatGPT竞争的聊天机器人将在测试后向他的X平台的高级订阅用户提供。站长网2023-11-06 09:08:130000Jeli将生成式人工智能引入事件报告分析
当一个重大的系统故障发生时,会有大量的在线和离线沟通进行。在线部分会创建一个数字审计轨迹,记录了什么时候发生了什么,人们如何反应,以及最终问题是如何解决的。Jeli是一家几年前成立的公司,旨在帮助企业理解和跟踪故障。今天,该公司宣布了其方法的下一个合乎逻辑的步骤——一款将ChatGPT类似的功能引入故障管理的测试版。站长网2023-08-11 11:17:160000