魔改Stable Diffusion，开源创新“单目深度估计”模型

站长网2024-01-02 09:20:330阅

单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像，想要还原出场景的三维结构，在几何结构上非常不确定，必须依赖复杂的场景理解能力。

即便使用更强大的深度学习模型来实现，也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。

为了解决这些难题，苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练，而是在Stable Diffusion（著名开源文生图模型）的基础上进行微调，只需要使用合成数据微调了中间的去噪网络，其他模块例如，编码/解码结构均保持原样，极大降低了训练成本。

实验数据显示，尽管Marigold从未直接学习过真实的深度信息，但在真实场景的测试中，其性能却超越了其他专门训练过的模型，并且迁移、兼容性非常强。

开源地址:https://github.com/prs-eth/Marigold

论文地址:https://arxiv.org/abs/2312.02145

Marigold的核心技术思路是，利用Stable Diffusion模型所捕获的丰富先验知识，来提升深度估计的泛化能力和性能。

简单来说，就是把Stable Diffusion当成一个图片查询数据库，只修改其去噪模块，就变成了可实现单目深度估计的全新模型。

Marigold的关键点在于保持预训练扩散模型的潜在空间，只对去噪U-Net进行修改和微调。

这种方法非常高效，无需实际深度图像的训练数据，就能在多个真实数据集上取得出色的性能表现。

Marigold提供了一个简单而资源高效的微调协议，将预训练的扩散生成模型转化为图像条件的深度估计器，成为了一种功能强大的单目深度估计模块。

Marigold通过使用合成的RGB-D数据以及在一块消费级显卡上只训练了几天，将Stable Diffusion转化为Marigold模型。主要流程如下:

去噪U-Net

研究人员主要通过修改和微调Stable Diffusion模型的去噪U-Net模块，来实现深度估计。去噪U-Net是一个编码器-解码器结构的神经网络，用于从输入图像中学习去除噪声的表示。

在Marigold模型中，研究人员保持了扩散模型的潜空间不变，只对去噪U-Net模块进行微调，以适应深度估计任务。

合成数据训练

为了微调Marigold模型，研究人员使用了合成的RGB-D训练数据，对模型进行训练。合成数据是通过在虚拟环境中，渲染图像并生成对应的深度图来创建的。

通过使用合成数据进行训练，Marigold可以学习到广泛的场景和物体形状，从而提高其在未见过数据集上的泛化能力。

仿射不变深度估计

Marigold使用了一种仿射不变的深度估计方法，能够估计图像中每个像素的深度值，而不受全局偏移和尺度的影响。

这种仿射不变性对于在不同场景和尺度下进行深度估计非常重要。通过估计仿射不变的深度，Marigold可以消除由于相机内参的不确定性，而引入的深度估计误差。

魔改StableDiffusion开源创新单目深度估计模型

0000

评论列表

共(0)条

相关推荐

站长资讯
智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能
近日，智谱AI发布了高质量、低成本的评分模型CritiqueLLM，用于评估文本生成模型的性能。传统的评价指标如BLEU和ROUGE主要基于n-gram重合度来计算评分，缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖，只有顶级的大模型才能取得令人满意的效果。
站长网2023-12-12 14:41:50
0001
被当场抓包！育碧用机器人为《刺客信条：影》刷好评：但仍不及差评
快科技9月14日消息，即将于11月发售的《刺客信条：影》是育碧今年的重头戏，育碧承诺将带来系列中最宏大的体验。然而据多位游戏主播和玩家的爆料，在《刺客信条：影》最新预告片的评论区，出现了大量疑似机器人账号发布的雷同好评。这些账号的名称、头像和创建时间高度一致，评论内容也缺乏多样性。
站长网站长资讯2024-09-17 09:32:27
0000
站长资讯
供应商透露小米汽车最新进展：首车报价完毕、明年按计划上市
快科技7月5日消息，小米造车又有好消息传来了，就在近日，有供应商透露了关于小米首款汽车的最新进展，其称当前已经报价完毕，明年可按计划上市。长春一汽富维汽车零部件有限公司在回答公司与小米汽车合作情况如何”一问时表示:公司正积极与小米汽车进行业务沟通，多家分子公司已经进入到小米汽车的采购组当中。当前，小米第一款车型报价完毕。”
站长网2023-07-05 17:28:24
0002
站长资讯
联合国将召开会议试图制定AI发展和监管蓝图
本周，联合国正在召开一次全球会议，旨在勾勒出人工智能的边界，并利用其潜力来赋予人类力量。联合国希望为处理人工智能（AI）制定一个明确的蓝图，因为该技术的发展超过了设定其边界的能力。正在日内瓦举行的“AI向善全球峰会”将于周四和周五聚集约3，000名来自微软、亚马逊等公司、大学和国际组织的专家，试图塑造处理AI的框架。
站长网2023-07-04 23:04:30
0000
站长资讯
1000亿GMV下，在抖音做团购的商家
抖音这条鲶鱼，成功搅动了本地生活市场。据《晚点LatePost》报道，抖音生活服务上半年的支付交易总额超过了1000亿元。而在去年，抖音生活服务的全年交易额接近900亿元，来势汹汹的抖音，用半年时间就超过了去年一年的成绩。耀眼的交易额和超过7亿的日活用户，吸引到了众多线下商家。
站长网2023-08-19 16:06:47
0000