英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023
英伟达一出手,3D建模师都馋哭了。
现在,制作一个纹理超细致的大卫3D模型,需要几步?
刚刚靠着AI,市值一度飚破万亿美元的英伟达给出最新答案:
给AI投喂一段普通视频,它就能自动搞定。
不仅雕塑的每一个褶皱都能拿捏住,更为复杂的建筑场景3D重建,同样靠一个视频就能解决:
连深度都能直接估算出来。
这个新AI名叫Neuralangelo,来自英伟达研究院和约翰霍普金斯大学。
论文刚一发表就吸引了全场网友的目光,让人直呼:这是直接创造新世界的节奏。
甚至再一次拉动了显卡销量【狗头】:
目前,相关论文已经入选CVPR2023。更多技术细节,我们一起接着往下看~
无需深度数据,直出3D结构
这篇论文采用的架构名叫Neuralangelo,一个听起来有点像著名雕塑家米开朗基罗(Michelangelo)的名字。
具体来说,Neuralangelo核心采用了两个技术。
一个是基于SDF的神经渲染重建。
其中,SDF即符号距离函数(Signed Distance Function),它的本质就是将3D模型划出一个表面,然后用数值表示每个点距离模型的实际距离,负数指点在表面内侧,正数指点在表面外侧:
△图源chriscummingshrg
基于SDF的神经渲染技术,则是采用神经网络(如MLP)对SDF进行编码,来对物体表面进行一个近似还原。
另一个则是多分辨率哈希编码,用于降低计算量。
多分辨率哈希编码是一种特殊的编码方式,能用很小的网络降低计算量,同时确保生成的质量不降低。
其中,多分辨率哈希表的value,对应由随机梯度下降优化得到特征向量。
操作流程上,则分为两步。
首先,基于神经渲染重建方法,计算出视频中3D结构的“粗糙表面”。
值得注意的是,这里采用了数值梯度而不是解析梯度,这样基于SDF生成算法做出来的3D模型表面更加平滑,不会出现凹凸不平的状态:
论文还额外对比了一下解析梯度和数值梯度的状态,从图中来看,数值梯度整体上能取得更平滑的建筑效果:
随后,就是逐渐减小数值梯度的步长(step size)、采用分辨率更高的哈希表,一步一步提升模型的精细度,还原建筑的细节:
最后再对生成的效果进行优化,就得到了还原出来的图像。
包含MLP和哈希编码在内,整个网络采用端到端的方式进行训练。
测试效果如何?
研究人员采用了DTU和Tanks and Temples两个数据集对Neuralangelo进行测试。
DTU数据集包含128个场景,这篇论文具体采用了其中的15个场景,每个场景包含49~64张由机器人拍摄的RGB图像。
随后,还采用了Tanks and Temples中6个场景的263~1107张RGB相机拍摄图像,真实数据则由LiDAR传感器获得。
Tanks and Temples包含中级和高级两类数据集。
其中,中级数据集包含雕塑、大型车辆和住宅规模的建筑;高级数据集则包含从内部成像的大型室内场景、以及具有复杂几何布局和相机轨迹的大型室外场景:
具体到生成细节上,Neuralangelo相比NeuS和NeuralWarp等“前SOTA”模型,在DTU数据集上展现出了非常准确的3D细节生成:
而在Tanks and Temples数据集上,Neuralangelo也同样展现出了不错的还原效果:
在F1-Score评估和图像质量PSNR评估中,Neuralangelo基本上全部取得了最好的效果:
华人一作
这篇研究的作者来自英伟达和约翰霍普金斯大学(Johns Hopkins University)。
论文一作李赵硕(Zhaoshuo Li),本科毕业于不列颠哥伦比亚大学,目前是约翰霍普金斯大学的博士生,师从Mathias Unberath和Russell Taylor。
Russell Taylor是医疗机器人领域泰斗,曾主持研发全球首台骨科手术机器人ROBDOC。
而李赵硕本人,本科专业也是机器人工程,如今算是小小跨界,研究重点在图像重建3D结构上。
Neuralangelo是李赵硕在英伟达实习期间的工作。此前,他还曾在Meta的Reality Labs实习(就是小扎All in 元宇宙的核心部门)。
论文地址:
https://research.nvidia.com/publication/2023-06_neuralangelo-high-fidelity-neural-surface-reconstruction
Kindle真的要拿来盖泡面了!电子书店停止运营:今天启动退款
快科技7月1日消息,按照Kindle中国官方发布的公告,今天Kindle中国电子书店将正式停止运营。原本大家更多知识调侃的盖泡面”成了真,如果超过时限没有在本地保存书籍,Kindle真的成了摆设。根据官方介绍,截止目前如果用户还存在尚未到期的会员费用,将安排退款。退款通道将于2023年7月1日9点开启,届时用户将收到短信或邮件通知,请注意查收。站长网2023-07-02 10:12:370002快手一季度营收252.2亿元 同比增长19.7%
快手公布一季度财报称,该季度实现营收252亿元,同比增加19.7%,调整后净利润4200万元,去年同期亏损37.22亿元。一季度快手电商交易总额(GMV)同比增长28.4%至2248亿元;此外,用户规模再创新高,一季度平均DAU同比增长8.3%达3.74亿,平均MAU同比增长9.4%达6.54亿;快手应用的每位日活跃用户日均使用时长达126.8分钟。站长网2023-05-22 17:09:470001AI改变澳大利亚求职方式,AI招聘工具越来越普及
划重点1.人工智能在澳大利亚的招聘领域日益普及,被用于筛选简历和初步面试,对求职者产生了深远影响。2.尽管AI在提高招聘效率方面有好处,但也引发了公平和歧视问题,研究表明AI筛选应聘者会强化对妇女和文化少数群体的偏见。3.求职者面临着缺乏透明度的问题,他们不清楚招聘过程如何评审他们,而澳大利亚法律也没有明确规定必须通知求职者AI筛选的细节。站长网2023-10-24 17:28:160000AITO汽车:问界M5系列华为高阶智能驾驶版4月17日发布
今日午间,AITO汽车宣布,问界M5系列华为高阶智能驾驶版及新品将在4月17日发布。据介绍,如通行被“加塞”,突遇障碍物,NCA智驾领航辅助,可灵活避让。突遇行人横穿马路,路边“鬼探头”,进出隧道光线突变,AEB主动安全,可精准识别,稳稳刹停。此外,智能泊车辅助可在复杂停车场,狭窄车库,不规则车位实现泊车“自由”。站长网2023-04-13 14:07:430000对话仁汇网络:每场直播超10万人在线,“木森大舞台”成功的秘诀是什么?
在抖音众多优质的大舞台直播间里,“木森大舞台”一定是有一席之地的。该直播间以头部主播木森和红豆为主导,每场直播都能维持10万流量。去年10月,木森来到了抖音,重启自己的直播事业,并选择了户外才艺大舞台的直播形式。精心装扮的户外舞台,极具地方特色的歌曲表演,很快为木森带来了百万的粉丝。站长网2023-10-13 18:00:040001