CamCo:可控制相机的3D 一致图像到视频生成
站长网2024-06-05 16:45:060阅
划重点:
🔍 提供了一个可控制相机姿态的图像到视频生成框架
🔍 引入 Plücker 坐标和极线约束注意力,实现了三维一致性
🔍 通过结构光算法对真实世界视频进行微调,改进了对象运动的合成效果
研究提出了一种新颖的可控制相机姿态的图像到视频生成框架 ——CamCo,用于生成高质量、三维一致的视频。通过引入 Plücker 坐标,为预训练的图像到视频生成器提供了精确参数化的相机姿态输入。
产品入口网址:https://top.aibase.com/tool/camco
为了增强生成的视频的三维一致性,研究人员在每个注意力模块中集成了极线约束注意力模块,以对特征图施加极线约束。此外,通过结构光算法对真实世界视频进行微调,以改进对象运动的合成效果。实验结果表明,与之前的模型相比,CamCo 在三维一致性和相机控制能力方面有显著的改进,同时能够有效地生成合理的对象运动。

CamCo 是一个全新的可控制相机的图像到视频生成框架,可以生成高质量、三维一致的视频。CamCo 通过使用 Plücker 坐标和极线约束注意力块将相机参数注入模型中。研究人员还引入了一个数据筛选流程,用于处理带有动态主体的真实世界视频,并通过这个筛选后的数据集对 CamCo 进行微调,以提高其生成具有相机自我运动和动态主体的视频的能力。
给定一张单独的图片和一个相机序列作为输入,CamCo 模型可以合成符合相机条件并具有三维一致性的视频。我们支持室内、室外、以物体为中心的和文本到图像生成的图片。最后一行的提示为 "一个繁茂的花园,里面有各种颜色的盛开的玫瑰,中间蜿蜒着一条石子路",第一帧的相机姿态以紫色显示。
0000
评论列表
共(0)条相关推荐
微信又能摇一摇加好友了 但仅限苹果iOS版
近日,微信“摇一摇”这一曾经风靡一时的交友功能在iOS版微信中悄然回归。用户只需在微信搜索框中输入“摇一摇”,点击“前往”即可体验该功能。通过晃动手机,用户可以随机匹配到全国范围内的微信用户。匹配成功后,用户还可以查看对方的昵称、与自己的距离、所在地区以及个性签名等信息,并支持向对方打招呼和添加好友。0000DeepSeek上脸实测:AR眼镜实时翻译老黄GTC演讲,完了还帮我划重点
DeepSeek、通义千问等大模型AR眼镜,打开GTC老黄演讲的姿势,可以是这样:翻译的字幕就在眼前,根据演讲实时更新。还能一键总结摘要:△实测为演讲部分内容,并非全文只凭一副看上去平平无奇的眼镜,就能随身带一个翻译官助手。摘下眼镜,立刻回归现实。同时也可以是一个随身携带,随时可直接唤醒的AI助手。提问一句,什么是相对论?专业回答立刻浮现眼前。站长网2025-03-23 19:35:070001深势科技推出多模态科学文献大模型Uni-Finder
深势科技推出了Uni-Finder,一个革命性的智能文献数据库平台,通过多模态检索功能和自然语言交互技术,提高科学文献的阅读和分析效率。Uni-Finder基于科学多模态大模Uni-SMT,综合考虑文献中的多模态元素,如图表、数学方程、分子结构等。站长网2023-11-15 19:21:000005卢伟冰:Redmi暂时不会出折叠屏手机
快科技8月3日消息,小米最近推出的两款折叠屏手机不仅将大折叠屏手机提升到了行业领先水平,同时也填补了小米在小折叠屏领域的空白。具体来说,小米MIX{tag_keyurl_4}4的折叠厚度仅为9.47mm,展开后更是薄至4.59mm,重量仅为226g,雷军甚至盛赞其手感堪比传统直屏旗舰手机,令人难以置信。站长网2024-08-03 18:15:470000