魔改Stable Diffusion,开源创新“单目深度估计”模型
单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像,想要还原出场景的三维结构,在几何结构上非常不确定,必须依赖复杂的场景理解能力。
即便使用更强大的深度学习模型来实现,也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。
为了解决这些难题,苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练,而是在Stable Diffusion(著名开源文生图模型)的基础上进行微调,只需要使用合成数据微调了中间的去噪网络,其他模块例如,编码/解码结构均保持原样,极大降低了训练成本。
实验数据显示,尽管Marigold从未直接学习过真实的深度信息,但在真实场景的测试中,其性能却超越了其他专门训练过的模型,并且迁移、兼容性非常强。
开源地址:https://github.com/prs-eth/Marigold
论文地址:https://arxiv.org/abs/2312.02145
Marigold的核心技术思路是,利用Stable Diffusion模型所捕获的丰富先验知识,来提升深度估计的泛化能力和性能。
简单来说,就是把Stable Diffusion当成一个图片查询数据库,只修改其去噪模块,就变成了可实现单目深度估计的全新模型。
Marigold的关键点在于保持预训练扩散模型的潜在空间,只对去噪U-Net进行修改和微调。
这种方法非常高效,无需实际深度图像的训练数据,就能在多个真实数据集上取得出色的性能表现。
Marigold提供了一个简单而资源高效的微调协议,将预训练的扩散生成模型转化为图像条件的深度估计器,成为了一种功能强大的单目深度估计模块。
Marigold通过使用合成的RGB-D数据以及在一块消费级显卡上只训练了几天,将Stable Diffusion转化为Marigold模型。主要流程如下:
去噪U-Net
研究人员主要通过修改和微调Stable Diffusion模型的去噪U-Net模块,来实现深度估计。去噪U-Net是一个编码器-解码器结构的神经网络,用于从输入图像中学习去除噪声的表示。
在Marigold模型中,研究人员保持了扩散模型的潜空间不变,只对去噪U-Net模块进行微调,以适应深度估计任务。
合成数据训练
为了微调Marigold模型,研究人员使用了合成的RGB-D训练数据,对模型进行训练。合成数据是通过在虚拟环境中,渲染图像并生成对应的深度图来创建的。
通过使用合成数据进行训练,Marigold可以学习到广泛的场景和物体形状,从而提高其在未见过数据集上的泛化能力。
仿射不变深度估计
Marigold使用了一种仿射不变的深度估计方法,能够估计图像中每个像素的深度值,而不受全局偏移和尺度的影响。
这种仿射不变性对于在不同场景和尺度下进行深度估计非常重要。通过估计仿射不变的深度,Marigold可以消除由于相机内参的不确定性,而引入的深度估计误差。
谷歌 I/O 2023 重点是 AI:Android 14 在主题演讲中仅被提及一次
谷歌I/O2023有一个非常明确的重点——人工智能。SundarPichai对AI的介绍包括有关PaLM2,Google相册中的新「魔术编辑器」等的公告。GoogleBard也有扩展,并在GoogleWorkspace产品(Docs,Gmail等)和搜索中预览生成AI。站长网2023-05-15 16:01:390001冲上韩区iOS评分,这款韩国AI聊天软件成了追星梦女新宠
和自己的偶像谈一场赛博恋爱是什么感觉?最近,有一款打着“新的梦女福音”旗号的AI聊天软件“LoveyDovey”在小红书悄悄走红。众多网友发帖分享了自己用“LoveyDovey”和AI恋人聊天的体验。点进帖子,几乎都是清一色的好评:“完全就是我偶像会在Bubble(一款可以用群聊的方式和韩国偶像交流互动的软件)里说的话”,“这未免也太贴我担了吧”。站长网2024-09-25 13:23:1000006月开测!华为纯血鸿蒙系统界面曝光:已迭代至3.0版本
快科技5月27日消息,自从华为纯血鸿蒙”HarmonyOSNEXT鸿蒙星河版官宣后,关于该系统的各种爆料也越来越多。日前,数码博主李昂昂昂啊”晒出HarmonyOSNEXT开发者版的系统截图,显示系统版本号为3.0.0.22。根据官方计划,在6月的华为开发者大会HDC2024上,HarmonyOSNEXT鸿蒙星河版将开启Beta(测试),这意味着将首次面向公众。站长网2024-05-27 15:00:100000一加13全球首发太阳显示技术:阳光再刺眼 屏幕也清晰
一加手机官方宣布,即将推出的一加13将全球首次搭载太阳显示技术,这一技术使得手机屏幕即使在刺眼的阳光下也能保持清晰可见。这项技术通过提升屏幕的感知立体色域110%,以及明度、彩度和感知动态对比度35%,优化了屏幕在户外环境下的显示效果。它还能根据强光自动调整增强效果,适应不同的户外天气条件,同时兼顾了可视性、功耗和发热。0000吸粉500W,“先天互联网圣体”成乡村赛道新顶流
7月抖音涨粉榜已出,我们一起来看:从整体涨粉走势来看,7月仍然保持着和6月一样的颓势,登上榜首的账号单月增粉量也只有292.7W,对比6月榜首315.6W的增量要更为惨淡。此后,增粉量在200W-300W之间的账号还有7个,剩余12个账号的增粉量则都在100W-200W之间。值得注意的是,此次登上涨粉榜TOP3的都不是严格意义上的内容创作者:站长网2024-08-08 00:53:130000