英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景
在CVPR2024上,美国英特尔研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技术。这项技术通过结合语言模型和图像扩散模型,实现了高质量、多模态、零样本泛化的360度场景生成。

核心特点:
结合语言模型和扩散模型:L-MAGIC利用自然图像连接不同模态的输入,并通过条件扩散模型如ControlNet从各种模态输入生成自然图像。
迭代变形和填充:在获得自然图像后,L-MAGIC通过迭代变形(warping)和填充(inpainting)生成360度场景的多个视角,使用基于扩散的图像填充模型(如Stable Diffusion v2)生成缺失像素。
语言模型控制:L-MAGIC使用语言模型自动控制扩散模型,根据每个视角需要生成的场景内容,有效保持语言及扩散模型的泛化性。
多样化场景生成:L-MAGIC能够生成多样化的全局场景结构,无需微调,从而实现多样化场景的高质量生成。
多模态输入:除了自然图像,L-MAGIC还能接受文字、手绘草图、深度图等多种模态的输入。
实验结果表明:
L-MAGIC在图像到360度场景生成及文字到360度场景生成任务中均达到了SOTA(State of the Art)。
能够生成具有多样化360度场景结构的全景图,并且能够平滑地完成360度闭环。
除了文字和自然图像,L-MAGIC还能够使用ControlNet接受多样化的输入,如深度图、设计草图等。
技术应用:
L-MAGIC还能够利用深度估计模型生成场景的沉浸式视频和三维点云,为场景理解和可视化提供了更多可能性。
项目主页:https://zhipengcai.github.io/MMPano/
斯坦福大学研究人员推AI框架DSPy:利用语言模型和检索模型解决复制任务
文章概要:1.DSPy是一个用于语言模型和检索模型的AI框架,可以解决各种高级任务。2.DSPy使用“签名”和“提示器”的模块化方法编译任何程序。3.DSPy需要很少的标记数据,可以自动生成中间提示支持管道。最近,斯坦福大学的研究人员推出了一个名为DSPy的AI框架,用于利用语言模型和检索模型来解决各种高级任务。DSPy包含多种技术,可以提示和微调语言模型,改进其推理和检索增强。站长网2023-08-29 14:54:360001Midjourney 升级 GPU 集群 提高图片生成速度
Midjourney今天宣布进行了GPU集群的升级。升级后,Pro和Mega级别的订阅用户将获得1.5倍的加速效果,图片生成时间将从约50秒缩短到30秒左右。此外,渲染的成本也将随之降低。站长网2023-08-11 16:35:460000OPPO刘作虎:手机是AI的最佳载体 它会让手机拥有智能的魂
快科技3月4日消息,今天OPPO首席产品官刘作虎在个人微博表示,对于AI手机是噱头还是未来这个问题很好回答,AI一定是未来。刘作虎表示,毫无疑问手机就是目前最适合AI技术的载体,这种化学反应让我们充满想象空间,就像我在内部分享时说过的一个观点:过去应用让手机拥有了智能的名,而未来AI会让手机拥有智能的魂”。站长网2024-03-05 12:43:010000AI视野:Stable Diffusion3发布;剪映海外版CapCut推文生视频;微软win10、win11照片应用增加AI橡皮擦功能;OpenAI更新GPT商店
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用StableDiffusion3发布文字渲染能力超强,图像生成质量超越Midjourney【AiBase提要:】站长网2024-02-23 15:43:310001腾讯混元大模型开始应用内测 多个业务线已接入
据36氪消息,腾讯自研的“腾讯混元大模型”已经进入应用内测阶段。多位腾讯员工表示,他们最近收到了内部邮件邀请,可以通过网页或小程序体验混元大模型。腾讯内部多个业务也已经接入混元大模型进行测试。在功能方面,除了常见的聊天对话功能,腾讯混元大模型还设置了一个名为“灵感发现”的栏目,主打内容创作。根据指引,员工可以让AI生成小红书种草文案、短视频脚本、社群营销文案以及朋友圈文案等。站长网2023-08-03 14:32:230000