首页站长资讯英特尔团队提出L-MAGIC新技术通过结合语言模型让图像扩散模型生成高质量360度场景

英特尔团队提出L-MAGIC新技术通过结合语言模型让图像扩散模型生成高质量360度场景

站长网2024-06-12 00:07:200阅

在CVPR2024上，美国英特尔研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC（Language Model Assisted Generation of Images with Coherence）的新技术。这项技术通过结合语言模型和图像扩散模型，实现了高质量、多模态、零样本泛化的360度场景生成。

核心特点:

结合语言模型和扩散模型:L-MAGIC利用自然图像连接不同模态的输入，并通过条件扩散模型如ControlNet从各种模态输入生成自然图像。

迭代变形和填充:在获得自然图像后，L-MAGIC通过迭代变形（warping）和填充(inpainting)生成360度场景的多个视角，使用基于扩散的图像填充模型(如Stable Diffusion v2)生成缺失像素。

语言模型控制:L-MAGIC使用语言模型自动控制扩散模型，根据每个视角需要生成的场景内容，有效保持语言及扩散模型的泛化性。

多样化场景生成:L-MAGIC能够生成多样化的全局场景结构，无需微调，从而实现多样化场景的高质量生成。

多模态输入:除了自然图像，L-MAGIC还能接受文字、手绘草图、深度图等多种模态的输入。

实验结果表明:

L-MAGIC在图像到360度场景生成及文字到360度场景生成任务中均达到了SOTA（State of the Art）。

能够生成具有多样化360度场景结构的全景图，并且能够平滑地完成360度闭环。

除了文字和自然图像，L-MAGIC还能够使用ControlNet接受多样化的输入，如深度图、设计草图等。

技术应用:

L-MAGIC还能够利用深度估计模型生成场景的沉浸式视频和三维点云，为场景理解和可视化提供了更多可能性。

项目主页：https://zhipengcai.github.io/MMPano/

英特尔团队提出LMAGIC新技术通过结合语言模型让图像扩散模型生成高质量360度场景

0000

评论列表

共(0)条

相关推荐

站长资讯
网信办加大“自媒体”MCN机构管理力度
中央网信办秘书局近日发布了《关于加强“自媒体”管理的通知》，该通知提出，为了加强对“自媒体”所属MCN机构的管理，网站平台应加强MCN机构管理制度的建立，并统一对MCN机构及其签约账号进行管理。此外，要求在“自媒体”账号主页上显著展示该账号所属MCN机构的名称。对于那些利用签约账号联动炒作、多次违规行为的MCN机构，网站平台应采取相应的处置措施，如暂停营利权限、限制提供服务以及清退等。
站长网2023-07-10 16:49:24
0001
站长资讯
腾讯宣布微信支付免除单笔交易200元及以下国际卡交易手续费
腾讯近日宣布与Visa、DiscoverGlobalNetwork、JCB、Mastercard等国际卡组织深化合作，全面开放微信支付商户网络，为境内各城市的商户提供移动支付服务。入境人士通过护照或相关证件开通微信支付，并绑定国际银行卡，即可在逾千万家商户便捷消费。
站长网2023-07-20 16:55:56
0000
站长资讯
视频生成新突破！PixelDance还可以做复杂动作和特殊效果
要点:PixelDance是一项新的视频生成技术，相较于其他模型，它在生成高度一致性和丰富动态性的视频方面取得了显著的进展，引起了广泛关注。PixelDance提供基础模式和高级魔法模式两种生成模式。基础模式仅需一张指导图片和文本描述，而高级魔法模式则需要两张指导图片，为用户提供更大的创造空间。这两种模式均能产生复杂、生动的视频效果。
站长网2023-11-24 14:33:00
0000
站长资讯
最新调查显示，听众对AI音乐持谨慎态度
**划重点:**1.📊IFPI调查显示76%的受访者认为“AI不应未经允许使用艺术家的音乐或声音”。2.🌐43，000人在26个国家接受了调查，74%认为“AI不应未经授权用于克隆或模仿艺术家”。3.🎤IFPI首席执行官呼吁政策制定者“制定负责任且安全的AI标准”。
站长网2023-11-28 15:55:56
0000
站长资讯
谷歌被打脸！Gemini Pro被证实和GPT3.5差距不大
要点:在CMU的研究中，GeminiPro被与GPT-3.5和Mistral8×7B进行了深入的比较，结果显示GPT-3.5在多个任务上几乎全面优于GeminiPro，但差距不大。通过测试任务包括基于知识的问答、通用推理、数学问题、代码生成等领域，GeminiPro在某些任务上表现较差，但在特定任务中超越了GPT-3.5。
站长网2023-12-25 17:38:45
0000