多视角高斯模型LGM:5秒产出高质量3D物体 支持图文到3D
**划重点:**
1. 🚀 北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合推出的 LGM 模型,以非对称 U-Net 为核心,仅需5秒即可从单视角图片或文本生成高分辨率高质量的3D物体。
2. 💻 代码和模型权重已在 GitHub 开源,附带在线 Demo 可供试玩。
3. 🌐 LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的挑战,支持 Text-to-3D 和 Image-to-3D 任务,同时提供了高效的 Mesh 转换方法。
近期,由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合研究的团队推出的大型多视角高斯模型(LGM)引起广泛关注。
LGM 以其核心模块 Large Multi-View Gaussian Model 为基础,采用了一种新颖的方法,能够在仅5秒的时间内从单一视角图片或文本输入中生成高分辨率高质量的3D物体。该模型的技术亮点在于使用了高效轻量的非对称 U-Net 作为骨干网络,直接从四个视角的图片中预测高分辨率的高斯基元,并通过可微渲染技术呈现出任意视角下的3D效果。

在技术层面,LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的两大挑战。具体而言,它通过在低分辨率的特征图上使用跨视角的自注意力机制,实现了不同视角之间的相关性建模,同时保持了较低的计算开销。此外,为了训练阶段和推理阶段之间的数据一致性,研究者还提出了基于网格畸变的数据增强策略,有效模拟了多视角不一致性。

值得注意的是,在实现高分辨率下高效训练这类模型时,研究者克服了两个主要问题。
首先,通过基于 objaverse 数据集中渲染出的三维一致的多视角图片进行训练,然后在推理阶段使用已有模型从文本或图像中合成多视角图片。为了解决多视角不一致的问题,文章提出了基于网格畸变的数据增强策略。
其次,为了模拟推理阶段生成的多视角图片在相机视角三维几何上的一致性,研究者对三个视角的相机位姿进行了随机扰动,增强了模型的稳健性。
训练完成后,LGM 不仅通过现有的图像到多视角或者文本到多视角扩散模型实现了高质量的 Text-to-3D 和 Image-to-3D 任务,而且能够在给定相同输入文本或图像的情况下生成多样的高质量三维模型。为了进一步支持下游图形学任务,研究者还提出了一种高效的方法,将生成的高斯表征转换为平滑且带纹理的 Mesh。
LGM 模型在3D内容生成领域的性能和创新引起了广泛关注。其开源精神以及提供的在线 Demo 进一步促进了对该模型的实际应用和探索。
LGM产品特色:
1. 高分辨率生成:
- LGM专注于从文本提示或单视图图像生成高分辨率的3D模型。
- 通过引入多视图高斯特征作为有效而强大的表示,能够在训练期间提供不同可导渲染的高分辨率3D对象。
2. 3D表示方法:
- 使用多视图高斯特征作为主要的3D表示方法。
- 这种表示方法可以通过融合不同视图的特征进行可导渲染。
3. 3D骨架结构:
- 引入不对称的U-Net作为高吞吐量的骨干结构。
- 该骨干结构在多视图图像上操作,这些图像可以通过利用多视图扩散模型从文本或单视图图像输入中产生。
4. 快速生成速度:
- 能够在5秒内生成3D对象,保持了快速生成速度。
- 同时,在将训练分辨率提高到512的情况下,实现了高分辨率3D内容生成。
5. 多样性生成:
- 支持从图像和文本两种输入方式生成3D对象,实现了图文并茂的3D内容创作。
- 提供了多视图的扩散模型,有助于增加生成的多样性。
总体而言,LGM通过创新的3D表示和骨干结构,以及高效的训练方法,实现了在高分辨率3D内容生成方面的显著进展。
项目入口:https://top.aibase.com/tool/lgm
调查:57%受访者认为人工智能提高代码质量
划重点:-42%的调查参与者认为已经在软件开发过程中使用人工智能,30%目前正在尝试。-57%的受访专业人士认为,人工智能(AI)在编码中的集成已经彻底改变了代码质量。-46%的受访者表示,由于人工智能在工作环境中的支持,工作满意度有所提高。0007大模型数据被盗第一案和解 笔神作文称不再对学而思发起诉讼
近日,笔神作文和学而思发布公告称,双方已经和解,笔神作文已于8月4日决定不再对学而思针对相关数据调取事件发起诉讼。据悉,经过深入调查和坦诚沟通,双方对有争议的条款已经达成一致,消除了误会,并将继续深化合作,共同推进AI技术在教育领域的探索。站长网2023-08-14 10:23:540000Win11更新“复活”老问题!部分应用将导致开始菜单失效
快科技7月27日消息,今天,微软为Win11推送了KB5028254更新补丁,意外导致了一个老问题的复活”。由于该Bug的影响,当用户使用诸如ExplorerPatcher、Start11等UI美化软件后,可能会导致开始菜单无法正常打开。0000字节跳动补上了音乐版块的最后一块拼图
很多人没注意到TikTok正在筹备的一步大棋。最近,在国外的招聘网站上,TikTok发布了音乐版权投资收购的相关职位。两年前,TikTok正式推出音乐营销和发行平台SoundOn时,业内就有人推测,未来TikTok或许会逐渐转变为一家唱片公司。站长网2024-07-03 17:16:550000世界新闻摄影大赛取消人工智能生成作品的投稿资格
**划重点:**1.🔄**规则变更**:世界新闻摄影大赛在数天内宣布接受人工智能生成图像投稿后,迅速受到反对,最终决定排除这类作品。2.📷**规则调整**:大赛将AI生成图像排除于“开放格式”类别,明确了对通过镜头相机制作的照片的图像编辑规则,拒绝使用某些生成AI模型的工具。站长网2023-11-22 10:44:100000