英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景
在CVPR2024上,美国英特尔研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技术。这项技术通过结合语言模型和图像扩散模型,实现了高质量、多模态、零样本泛化的360度场景生成。

核心特点:
结合语言模型和扩散模型:L-MAGIC利用自然图像连接不同模态的输入,并通过条件扩散模型如ControlNet从各种模态输入生成自然图像。
迭代变形和填充:在获得自然图像后,L-MAGIC通过迭代变形(warping)和填充(inpainting)生成360度场景的多个视角,使用基于扩散的图像填充模型(如Stable Diffusion v2)生成缺失像素。
语言模型控制:L-MAGIC使用语言模型自动控制扩散模型,根据每个视角需要生成的场景内容,有效保持语言及扩散模型的泛化性。
多样化场景生成:L-MAGIC能够生成多样化的全局场景结构,无需微调,从而实现多样化场景的高质量生成。
多模态输入:除了自然图像,L-MAGIC还能接受文字、手绘草图、深度图等多种模态的输入。
实验结果表明:
L-MAGIC在图像到360度场景生成及文字到360度场景生成任务中均达到了SOTA(State of the Art)。
能够生成具有多样化360度场景结构的全景图,并且能够平滑地完成360度闭环。
除了文字和自然图像,L-MAGIC还能够使用ControlNet接受多样化的输入,如深度图、设计草图等。
技术应用:
L-MAGIC还能够利用深度估计模型生成场景的沉浸式视频和三维点云,为场景理解和可视化提供了更多可能性。
项目主页:https://zhipengcai.github.io/MMPano/
网信办加大“自媒体”MCN机构管理力度
中央网信办秘书局近日发布了《关于加强“自媒体”管理的通知》,该通知提出,为了加强对“自媒体”所属MCN机构的管理,网站平台应加强MCN机构管理制度的建立,并统一对MCN机构及其签约账号进行管理。此外,要求在“自媒体”账号主页上显著展示该账号所属MCN机构的名称。对于那些利用签约账号联动炒作、多次违规行为的MCN机构,网站平台应采取相应的处置措施,如暂停营利权限、限制提供服务以及清退等。站长网2023-07-10 16:49:240001腾讯宣布微信支付免除单笔交易200元及以下国际卡交易手续费
腾讯近日宣布与Visa、DiscoverGlobalNetwork、JCB、Mastercard等国际卡组织深化合作,全面开放微信支付商户网络,为境内各城市的商户提供移动支付服务。入境人士通过护照或相关证件开通微信支付,并绑定国际银行卡,即可在逾千万家商户便捷消费。站长网2023-07-20 16:55:560000视频生成新突破!PixelDance还可以做复杂动作和特殊效果
要点:PixelDance是一项新的视频生成技术,相较于其他模型,它在生成高度一致性和丰富动态性的视频方面取得了显著的进展,引起了广泛关注。PixelDance提供基础模式和高级魔法模式两种生成模式。基础模式仅需一张指导图片和文本描述,而高级魔法模式则需要两张指导图片,为用户提供更大的创造空间。这两种模式均能产生复杂、生动的视频效果。站长网2023-11-24 14:33:000000最新调查显示,听众对AI音乐持谨慎态度
**划重点:**1.📊IFPI调查显示76%的受访者认为“AI不应未经允许使用艺术家的音乐或声音”。2.🌐43,000人在26个国家接受了调查,74%认为“AI不应未经授权用于克隆或模仿艺术家”。3.🎤IFPI首席执行官呼吁政策制定者“制定负责任且安全的AI标准”。站长网2023-11-28 15:55:560000谷歌被打脸!Gemini Pro被证实和GPT3.5差距不大
要点:在CMU的研究中,GeminiPro被与GPT-3.5和Mistral8×7B进行了深入的比较,结果显示GPT-3.5在多个任务上几乎全面优于GeminiPro,但差距不大。通过测试任务包括基于知识的问答、通用推理、数学问题、代码生成等领域,GeminiPro在某些任务上表现较差,但在特定任务中超越了GPT-3.5。站长网2023-12-25 17:38:450000