1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
只需两分钟,玩转图片转3D!
还是高纹理质量、多视角高一致性的那种。
不管是什么物种,输入时的单视图图像还是这样婶儿的:
两分钟后,3D版大功告成:
△上,Repaint123(NeRF);下,Repaint123(GS)
新方法名为Repaint123,核心思想是将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力相结合,来生成高质量、多视角一致的图像。
此外,该研究还引入了针对重叠区域的可见性感知自适应再绘强度的方法。
Repaint123一举解决了此前方法多视角偏差大、纹理退化、生成慢等问题。
目前项目代码还未在GitHub公布,就有100 人赶来标星码住:
Repaint123长啥样?
之前,将图像转换为3D的方法通常采用Score Distillation Sampling (SDS)。尽管该方法的结果令人印象深刻,但存在一些问题,如多视角不一致、过度饱和、过度平滑的纹理以及生成速度缓慢。
△从上至下:输入,Zero123-XL,Magic123,Dream gaussian
为了解决这些问题,来自北京大学、鹏城实验室、新加坡国立大学、武汉大学的研究人员提出了Repaint123。
总的来说,Repaint123有这几点贡献:
(1)Repaint123通过综合考虑图像到3D生成的可控重绘过程,能够生成高质量的图片序列,并确保这些图片在多个视角下保持一致。
(2)Repaint123提出了一个简单的单视图3D生成的基准方法。
在粗模阶段,它利用Zero123作为3D先验,并结合SDS损失函数,通过优化Gaussian Splatting几何,快速生成粗糙的3D模型(仅需1分钟)。
在细模阶段,它采用Stable Diffusion作为2D先验,并结合均方误差(MSE)损失函数,通过快速细化网格纹理,生成高质量的3D模型(同样只需1分钟)。
(3)大量的实验证明了Repaint123方法的有效性。它能够在短短2分钟内,从单张图像中生成与2D生成质量相匹配的高质量3D内容。
△实现3D一致且高质量的单视角3D快速生成
下面来看具体方法。
Repaint123专注于优化mesh细化阶段,其主要改进方向涵盖两个方面:生成具有多视角一致性的高质量图像序列以及实现快速而高质量的3D重建。
1、生成具有多视角一致性的高质量图像序列
生成具有多视角一致性的高质量图像序列分为以下三个部分:
△多视角一致的图像生成流程
DDIM反演
为了保留在粗模阶段生成的3D一致的低频纹理信息,作者采用了DDIM反演将图像反演到确定的潜在空间,为后续的去噪过程奠定基础,生成忠实一致的图像。
可控去噪
为了在去噪阶段控制几何一致性和长程纹理一致性,作者引入了ControlNet,使用粗模渲染的深度图作为几何先验,同时注入参考图的Attention特征进行纹理迁移。
此外,为了执行无分类器引导以提升图像质量,论文使用CLIP将参考图编码为图像提示,用于指导去噪网络。
重绘
渐进式重绘遮挡和重叠部分为了确保图像序列中相邻图像的重叠区域在像素级别对齐,作者采用了渐进式局部重绘的策略。
在保持重叠区域不变的同时,生成和谐一致的相邻区域,并从参考视角逐步延伸到360°。
然而,如下图所示,作者发现重叠区域同样需要进行细化,因为在正视时之前斜视的区域的可视分辨率变大,需要补充更多的高频信息。
另外,细化强度等于1-cosθ*,其中θ*为之前所有相机视角与所视表面法向量夹角θ的最大值,从而自适应地重绘重叠区域。
△相机视角与细化强度的关系
为了选择适当的细化强度,以在提高质量的同时保证忠实度,作者借鉴了投影定理和图像超分的思想,提出了一种简单而直接的可见性感知的重绘策略来细化重叠区域。
2、快速且高质量的3D重建
正如下图所展示的,作者在进行快速且高质量的3D重建过程中,采用了两阶段方法。
△Repaint123两阶段单视角3D生成框架
首先,他们利用Gaussian Splatting表示来快速生成合理的几何结构和粗糙的纹理。
同时,借助之前生成的多视角一致的高质量图像序列,作者能够使用简单的均方误差(MSE)损失进行快速的3D纹理重建。
一致性、质量和速度最优
研究人员对多个单视图生成任务的方法进行了比较。
△单视图3D生成可视化比较
在RealFusion15和Test-alpha数据集上,Repaint123取得了在一致性、质量和速度三个方面最领先的效果。
同时,作者也对论文使用的每个模块的有效性以及视角转动增量进行了消融实验:
并且发现,视角间隔为60度时,性能达到峰值,但视角间隔过大会减少重叠区域,增加多面问题的可能性,所以40度可作为最佳视角间隔。
论文地址:https://arxiv.org/pdf/2312.13271.pdf
代码地址:https://pku-yuangroup.github.io/repaint123/
项目体验地址:https://top.aibase.com/tool/repaint123
幂律智能联合智谱AI发布法律垂直大模型PowerLawGLM
今日,幂律智能联合智谱AI发布基于中文千亿大模型的法律垂直大模型——PowerLawGLM。PowerLawGLM法律大模型,基于智谱目前效果最好的ChatGLM130B通用千亿对话大模型进行联合研发。双方基于ChatGLM130B的基座大模型GLM130B,经过了多轮多次高质量法律文本数据(裁判文书、法律法规、法律知识问答等)清洗及模型增量训练,得到法律版基座大模型LawGLM130B。站长网2023-06-29 19:07:260002周鸿祎:别小看直播网红经济 俞敏洪吃着火锅唱着歌就把地方文旅带火了
快科技2月15日消息,今日,360创始人周鸿祎发微博称,不能小看直播和网红经济,俞敏洪吃着火锅唱着歌就把一个地方的文旅给带火了。他表示,最近各地的文旅部门都在争当网红。前段时间哈尔滨引发热潮,随后河南也兴起了很多网红。针对这些现象,周鸿祎认为,将来很多央国企,肯定也有这样的需求。对于他个人,目前还没有思考这些网红经济的商业模式,因为他还没有到1000万粉丝。0000小红书电商“摇人”
在国内电商价格战日趋激烈、战火逐渐向海外蔓延的情况下,小红书发起了新一轮电商冲击,能不能改变行业格局尚难定论。但引人瞩目的是,小红书电商拿出的核心竞争力不是货品价格和补贴,而是“人”。据《晚点LatePost》报道,近期小红书整合了电商业务与直播业务,组建了新的交易部,成为与社区部、商业部平行的一级部门。此前电商业务是归属于社区部之下的二级部门。站长网2023-09-05 13:55:530000抖音入局跨境电商,剑指京东阿里?
抖音下场又开始玩跨境电商了!8月14日,抖音APP内上线了一家新店——全球优选进口超市。这是抖音电商旗下的一家以自营类型为主的跨境电商店铺。站长网2023-08-28 18:10:550000羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品
开源羊驼大模型LLaMA上下文追平GPT-4,只需要一个简单改动!MetaAI这篇刚刚提交的论文表示,LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。与预训练相比,成本忽略不计。扩展上下文窗口,就意味着AI的“工作记忆”容量增加,具体来说可以:支持更多轮对话,减少遗忘现象,如更稳定的角色扮演输入更多资料完成更复杂的任务,如一次处理更长文档或多篇文档站长网2023-06-29 12:13:360001