魔改Stable Diffusion,开源创新“单目深度估计”模型
单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像,想要还原出场景的三维结构,在几何结构上非常不确定,必须依赖复杂的场景理解能力。
即便使用更强大的深度学习模型来实现,也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。
为了解决这些难题,苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练,而是在Stable Diffusion(著名开源文生图模型)的基础上进行微调,只需要使用合成数据微调了中间的去噪网络,其他模块例如,编码/解码结构均保持原样,极大降低了训练成本。
实验数据显示,尽管Marigold从未直接学习过真实的深度信息,但在真实场景的测试中,其性能却超越了其他专门训练过的模型,并且迁移、兼容性非常强。
开源地址:https://github.com/prs-eth/Marigold
论文地址:https://arxiv.org/abs/2312.02145
Marigold的核心技术思路是,利用Stable Diffusion模型所捕获的丰富先验知识,来提升深度估计的泛化能力和性能。
简单来说,就是把Stable Diffusion当成一个图片查询数据库,只修改其去噪模块,就变成了可实现单目深度估计的全新模型。
Marigold的关键点在于保持预训练扩散模型的潜在空间,只对去噪U-Net进行修改和微调。
这种方法非常高效,无需实际深度图像的训练数据,就能在多个真实数据集上取得出色的性能表现。
Marigold提供了一个简单而资源高效的微调协议,将预训练的扩散生成模型转化为图像条件的深度估计器,成为了一种功能强大的单目深度估计模块。
Marigold通过使用合成的RGB-D数据以及在一块消费级显卡上只训练了几天,将Stable Diffusion转化为Marigold模型。主要流程如下:
去噪U-Net
研究人员主要通过修改和微调Stable Diffusion模型的去噪U-Net模块,来实现深度估计。去噪U-Net是一个编码器-解码器结构的神经网络,用于从输入图像中学习去除噪声的表示。
在Marigold模型中,研究人员保持了扩散模型的潜空间不变,只对去噪U-Net模块进行微调,以适应深度估计任务。
合成数据训练
为了微调Marigold模型,研究人员使用了合成的RGB-D训练数据,对模型进行训练。合成数据是通过在虚拟环境中,渲染图像并生成对应的深度图来创建的。
通过使用合成数据进行训练,Marigold可以学习到广泛的场景和物体形状,从而提高其在未见过数据集上的泛化能力。
仿射不变深度估计
Marigold使用了一种仿射不变的深度估计方法,能够估计图像中每个像素的深度值,而不受全局偏移和尺度的影响。
这种仿射不变性对于在不同场景和尺度下进行深度估计非常重要。通过估计仿射不变的深度,Marigold可以消除由于相机内参的不确定性,而引入的深度估计误差。
高考生换机高峰来了!卢伟冰:Redmi K60、小米13真卖爆了
快科技6月11日消息,一年一度的全国高考已经结束,每年的这个时候都是学生换新手机的高峰。今日,小米集团合伙人、Redmi品牌总经理卢伟冰发文称,昨天是全国高考后的第一天,小米之家非常热闹,K60和小米13是最受欢迎的两款产品,真的是卖爆了。据了解,小米为今年的高考生推出了考生专属1970元券包,完成高考”认证即可领取。站长网2023-06-12 03:42:420001OpenAI董事会迎来新成员,Sam Altman回归及三位女性强人加盟
OpenAI董事会最新宣布了重要变动,标志着SamAltman的回归和三位杰出女性成员的加盟。这一决定不仅使得董事会的规模达到了八名成员,还为公司未来的发展注入了新的活力。备受瞩目的是SamAltman的回归,他曾在OpenAI有过卓越的贡献,而此次的回归将为公司带来更多战略性的领导力。同时,三位新加入的女性成员也给董事会注入了更多的多样性和专业经验。站长网2024-03-11 09:24:570000高通首席执行官:手机运行 AI 模型系公司未来增长的「拐点」机会
站长之家(ChinaZ.com)8月3日消息:高通周三公布了第三季度的财报,超过了华尔街的预期,但第四季度的收入和指导不及预期。高通的股票在盘后交易中下跌了超过6%。由于高通是大多数高端安卓设备和许多低端手机的处理器制造商,所以低迷的智能手机行业对其有影响。站长网2023-08-03 17:56:260000报告:ChatGPT 撰写的近期AI会议同行评审高达 17%
划重点:🔍研究发现,2023-2024年顶级AI会议的同行评审中有大量AI生成内容。🔍重度AI内容的审稿往往出现在截止日期附近。🔍人工智能对同行评审质量和完整性可能带来影响,引发了一些问题。最近的一项研究揭示了一个重要发现:2023-2024年顶级人工智能会议的同行评审中可能包含大量来自ChatGPT等模型的AI生成内容。站长网2024-03-26 14:19:200001社交元宇宙Soul的眼泪
第三次IPO,Soul还是不挣钱。“现在这个软件真的不是我们当初认识的那个软件了。以前的用户都很真诚,现在乌烟瘴气的。奉劝各位千万别在这里恋爱,偶尔聊天还是可以的。”一位Soul的早期用户告诉刺猬公社(ID:ciweigongshe)。以前的Soul什么样子?站长网2023-05-20 11:21:060000