5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D
使用大模型合成的数据,就能显著提升3D生成能力?
来自上海交大、香港中文大学等团队还真做到了。
他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。
结果表明,新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。
目前,Bootstrap3D的数据集已经全面开源。
用大模型合成数据
近年来,3D内容生成技术迎来了飞速发展。然而,相对于2D图片生成,生成高质量的3D物体仍面临诸多挑战。
其中核心的瓶颈即在于3D数据,尤其是高质量数据的不足。
为了解决这一问题,研究团队推出Bootstrap3D框架,通过自动生成多视图图像数据来解决3D内容生成中高质量数据不足的问题。
具体来说,这个框架采用了2D和视频扩散模型来生成多视图图像,并利用一个经过微调的3D多模态大模型对生成的数据进行质量筛选和描述重写。
通过这种方式,Bootstrap3D能够自动产生大量高质量的3D图像数据,从而“自举”出一个足够大的数据集,辅助训练更优秀的多视图扩散模型。
这里插一嘴,在计算机科学和机器学习领域,“Bootstrap”通常指的是一种通过自举方法解决问题的技术。
数据构建Pipeline
具体来说,数据构建Pipeline是本次框架的核心创新之一,旨在自动生成高质量的多视图图像数据,并附带详细的描述文本。
主要分为以下几个步骤:
文本提示生成:首先,使用强大的大语言模型(如GPT-4)生成大量富有创意和多样化的文本提示。这些文本提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。
图像生成:利用2D扩散模型和视频扩散模型,根据生成的文本提示创建单视图图像。通过结合2D和视频扩散模型的优势,生成的图像具有更高的初始质量和多样性。
多视图合成:使用视频扩散模型将单视图图像扩展为多视图图像,生成不同角度的视图。这一步骤确保了每个对象在不同视角下的一致性,解决了传统方法中视图不一致的问题。
质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视图图像进行严格的质量筛选。筛选过程不仅过滤掉低质量的数据,还重写描述文本,使其更加准确和详细。
通过这个数据构建Pipeline,Bootstrap3D能够生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。
这一创新不仅解决了3D数据稀缺的问题,还显著提升了模型的生成效果和对文本提示的响应能力。
训练timestep重安排(TTR)
团队还提出了一种创新的训练timestep重新安排策略(TTR),以解决多视图扩散模型训练中的图像质量和视图一致性问题。
TTR策略的核心理念是在训练过程中灵活调整合成数据和真实数据的训练时间步,从而优化去噪过程的不同阶段。
去噪过程的阶段性特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频成分);在后期时间步,则主要生成图像的细节和纹理(高频成分)。这种阶段性特征为我们提供了调整训练策略的机会。
限制合成数据的训练时间步:由于合成数据可能存在一些模糊和失真,我们在训练时限制其时间步范围。具体来说,我们让合成数据主要参与早期的去噪阶段,确保它们对整体结构的贡献,而将后期的细节生成留给质量更高的真实数据。
分阶段训练策略:通过将合成数据限制在较大的时间步范围内(如200到1000步),我们确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图一致性。同时,真实数据则参与所有时间步的训练,以提供高频细节和真实感。这样的分阶段训练策略有效平衡了图像质量和视图一致性。
实验证明效果显著:广泛的实验结果表明,使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面均表现优异。该策略不仅保留了原始2D扩散模型的优点,还显著提升了多视图生成的效果。
通过训练时间步重新安排策略(TTR),Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量3D内容生成奠定了坚实基础。
好了,Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。
论文地址:
https://arxiv.org/abs/2406.00093/
项目主页:
https://sunzey.github.io/Bootstrap3D/
数据集地址:
https://huggingface.co/datasets/Zery/BS-Objaverse/
超过 75% 的投资者因人工智能而热捧科技股 但只有不到一半的投资者愿意为个人或企业使用 AI 工具付费
站长之家(ChinaZ.com)8月2日消息:华尔街及其他地区的投资者押注2023年科技股的大涨具有持久力,尽管他们似乎对人工智能时代是否会如宣传的那样持怀疑态度。站长网2023-08-02 10:44:320000日本文学奖得主承认借助用ChatGPT写作小说 占比5%
划重点1.🏆日本文学奖得主承认她的小说《Tokyo-toDojo-to》约有5%是使用ChatGPT生成的。2.🤖ChatGPT不仅帮助她实现潜力,还成为她的创作灵感和心灵依托,启发了小说中的对话。3.🤝与一些担忧AI抄袭的艺术家不同,她看待AI为人类能力的补充,希望未来与AI保持“良好关系”并共同发展创造力。站长网2024-01-19 11:21:340000ChatGPT高三考试仅物理得零分 张朝阳:原创内容很重要
快科技6月1日消息,ChatGPT一经发布就风靡全球,未来的前景被人一致看好。近日,在搜狐的创作者大会上,在场嘉宾讨论了ChatGPT对知识直播领域的影响。同济大学物理教授吴於人称:有人把高三的卷子弄到上面去给他们做选择题,ChatGPT做下来的时候,英语、历史、文字性的东西都考的非常好,成功率非常高,但是只有物理得零分。”0000谷歌推出新图像控制方式 可在StableDiffusion图像生成中保证内容特征一致性
Google最近推出了一种新的图像生成技术,通过保证内容特征的一致性,可以生成具有相同视觉特征的连贯图像。这对于故事可视化、游戏开发和广告等领域非常重要,因为在生成过程中,角色或内容的一致性是必需的。论文地址:https://arxiv.org/pdf/2311.10093.pdf站长网2023-11-20 11:22:440005升级通道关闭!Windows 7/8不能免费升级到10/11
快科技10月2日消息,微软近日发布通知,Windows7/8设备免费升级到Windows10/11的通道将会被移除,但从Windows10升级到11仍然是免费的。然而,在公告发布之前,仍有部分用户尝试通过升级方式获取永久激活。此外,据报道,一些大神开发的HWID激活工具(如HWIDGEN和MAS)也将无效,原因是微软服务器已经禁止此类请求。0000