DeepMind发布自监督扩散模型SODA

站长网2023-12-01 12:16:310阅

Google DeepMind昨天发布的一项研究展示了一项引人注目的技术，尽管其中的技术细节可能需要深入理解，但总体来说，通过一系列操作，可以以无监督的方式精准控制扩散模型，从而实现风格和内容的分离，以及合成物品的3D视图等功能。

论文地址:https://soda-diffusion.github.io/

这项研究介绍了一种名为SODA的自监督扩散模型，专门用于表示学习。该模型包括一个图像编码器，通过将源视图提炼成紧凑的表示，来引导生成相关的新颖视图。通过在编码器和去噪解码器之间施加严格的瓶颈，并以新颖的视图合成作为自监督目标，这项技术将扩散模型转变为强大的表示学习器，能够以无监督的方式捕获视觉语义。

该模型由一个图像编码器和一个去噪解码器组成，编码器将输入视图转换为低维潜在表示，然后引导去噪解码器进行生成。论文详细描述了编码器的架构设计、新视角生成的机制，以及为了培养强大有意义的表示而开发的优化技术。

通过一系列定量和定性实验，作者展示了SODA在多个数据集上的强大表示和生成能力。这些实验涉及线性探测分类、图像重建、新视角合成，以及解混杂和可控性的评估。

SODA不仅在图像生成方面表现出色，而且能够学习强大的语义表示。未来，这种方法或许可以应用到动态组合场景中。这项研究为深度学习领域的发展提供了新的思路和可能性。

DeepMind发布自监督扩散模型SODA

0000

评论列表

共(0)条

相关推荐

站长资讯
高通将与恩智浦、博世等多家公司联合开发开源RISC-V架构
8月5日消息，据外媒报道，根据一份声明，在高通首席执行官（CEO）克里斯蒂亚诺·阿蒙(CristianoAmon)的领导下，高通将与恩智浦、北欧半导体公司(NordicSemiconductor)、英飞凌和博世合作，开发和推广用于芯片设计的开源RISC-V架构。
站长网2023-08-05 19:35:24
0000
站长资讯
Meta利用生成式AI推出新的Instagram滤镜
划重点:⭐Meta副总裁AhmadAl-Dahle在旧金山AxiosAI峰会上介绍了新的Instagram功能⭐两种新的生成式人工智能滤镜将使Instagram用户能够轻松地分离图像元素并执行其他高级编辑⭐Meta计划让企业和创作者制作他们自己的人工智能，使人工智能更高效和更易于访问
站长网2023-11-09 10:46:26
0000
站长资讯
FastGen：在不降低LLM质量的情况下降低GPU内存成本
划重点:-⭐FastGen一种高效的技术，可以提高LLM的推理效率，而不会降低可见质量。-⭐FastGen轻量级模型分析和自适应键值缓存来实现。-⭐FastGen通过自适应的键值缓存构造来少生成推理过程中的GPU内存使用量。
站长网2024-05-13 11:04:00
0000
站长资讯
土味神曲，占领抖音？
“鲁A济南车”，“鲁B青岛的”，“鲁C淄博鲁D枣庄东营是鲁E……”眼下，这是一曲在抖音颇为火爆甚至可以说是最为火爆的BGM，如果你对山东车牌有基本的了解，那么接下来的歌词将会在相似的旋律里不断循环，直至“莱芜挂着鲁S，潍坊还拉了个”。
站长网2024-07-11 20:34:49
0002
站长资讯
谷歌推出文生视频模型Veo：对标Sora 时长超 1 分钟
在今日举行的谷歌2024I/O开发者大会上，谷歌正式推出了备受瞩目的全新视频生成模型——Veo。这款产品被视为对OpenAI三个月前推出的文本转视频工具Sora的直接挑战，旨在为用户提供更加高质量、多风格的视频生成体验。
站长网2024-05-15 08:19:46
0000