魔改Stable Diffusion,开源创新“单目深度估计”模型
单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像,想要还原出场景的三维结构,在几何结构上非常不确定,必须依赖复杂的场景理解能力。
即便使用更强大的深度学习模型来实现,也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。
为了解决这些难题,苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练,而是在Stable Diffusion(著名开源文生图模型)的基础上进行微调,只需要使用合成数据微调了中间的去噪网络,其他模块例如,编码/解码结构均保持原样,极大降低了训练成本。
实验数据显示,尽管Marigold从未直接学习过真实的深度信息,但在真实场景的测试中,其性能却超越了其他专门训练过的模型,并且迁移、兼容性非常强。
开源地址:https://github.com/prs-eth/Marigold
论文地址:https://arxiv.org/abs/2312.02145
Marigold的核心技术思路是,利用Stable Diffusion模型所捕获的丰富先验知识,来提升深度估计的泛化能力和性能。
简单来说,就是把Stable Diffusion当成一个图片查询数据库,只修改其去噪模块,就变成了可实现单目深度估计的全新模型。
Marigold的关键点在于保持预训练扩散模型的潜在空间,只对去噪U-Net进行修改和微调。
这种方法非常高效,无需实际深度图像的训练数据,就能在多个真实数据集上取得出色的性能表现。
Marigold提供了一个简单而资源高效的微调协议,将预训练的扩散生成模型转化为图像条件的深度估计器,成为了一种功能强大的单目深度估计模块。
Marigold通过使用合成的RGB-D数据以及在一块消费级显卡上只训练了几天,将Stable Diffusion转化为Marigold模型。主要流程如下:
去噪U-Net
研究人员主要通过修改和微调Stable Diffusion模型的去噪U-Net模块,来实现深度估计。去噪U-Net是一个编码器-解码器结构的神经网络,用于从输入图像中学习去除噪声的表示。
在Marigold模型中,研究人员保持了扩散模型的潜空间不变,只对去噪U-Net模块进行微调,以适应深度估计任务。
合成数据训练
为了微调Marigold模型,研究人员使用了合成的RGB-D训练数据,对模型进行训练。合成数据是通过在虚拟环境中,渲染图像并生成对应的深度图来创建的。
通过使用合成数据进行训练,Marigold可以学习到广泛的场景和物体形状,从而提高其在未见过数据集上的泛化能力。
仿射不变深度估计
Marigold使用了一种仿射不变的深度估计方法,能够估计图像中每个像素的深度值,而不受全局偏移和尺度的影响。
这种仿射不变性对于在不同场景和尺度下进行深度估计非常重要。通过估计仿射不变的深度,Marigold可以消除由于相机内参的不确定性,而引入的深度估计误差。
AI在劳动节淘汰7800打工人,永久的
“这不是演习,AI让人失业来真的了!”就在这个劳动节假期,科技巨头IBM宣布:暂缓可以被AI取代的岗位的招聘,约7800人将被永久淘汰。尽管“我们要被AI取代”的唬人消息不是第一次出现了,但正如外媒ArsTechnica所说:IBM直接将这个问题“摆到了台面上”。换而言之,IBM打响了科技巨头用AI取代人类岗位的第一枪。站长网2023-05-04 09:01:110000大模型不需要眼前的共识
确定性的机会指向的往往是需求场景,需要实干家,不断优化体验;而不确定的机会往往依托于技术创新,需要冒险家,探索出一条通向应用的路径。这也是为什么人们不会惊讶于雷军下场造车的决心,却很难完全相信杨植麟在月之暗面创业过程中表现出来的技术理想主义。站长网2024-05-07 12:49:260000小米14 Pro保外维修价格出炉 换屏价格1000元
小米商城近日公布了小米14Pro和小米14Pro钛金属特别版的保外维修价格。从公布的表格中可以看出,保外物料的主要成本集中在主板和显示屏上。其中,小米14Pro的主板保外物料指导价为2710元,维修费为40元,与RedmiK60至尊版的价位相当。而显示屏的维修费用中,小米14Pro钛金属特别版的换屏价格为1610元,小米14Pro的换屏价格为1000元。站长网2023-11-05 10:53:490000Arm推出Cortex-M52芯片 将AI引入最小的物联网设备
要点:Arm公司发布了Cortex-M52芯片,旨在将人工智能(AI)分析引入物联网(IoT)中最小的设备,使其能够在边缘进行智能分析。Cortex-M52芯片结合了Arm的Helium技术,提供对小型、成本敏感的嵌入式设备的改进性能,不仅提升了机器学习性能,还减少了能耗。站长网2023-11-28 15:18:370000开源大模型正在“杀死”闭源?
“OpenAI不足为惧,开源会慢慢赶上来。”彼时HuggingFace创始人ClemDelangue的一句预言,正在迅速成为现实。ChatGPT横空出世7个多月后,7月19日,Llama2宣布开源,并且可直接商用。站长网2023-10-07 13:55:110000