5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D
使用大模型合成的数据,就能显著提升3D生成能力?
来自上海交大、香港中文大学等团队还真做到了。
他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。
结果表明,新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。
目前,Bootstrap3D的数据集已经全面开源。
用大模型合成数据
近年来,3D内容生成技术迎来了飞速发展。然而,相对于2D图片生成,生成高质量的3D物体仍面临诸多挑战。
其中核心的瓶颈即在于3D数据,尤其是高质量数据的不足。
为了解决这一问题,研究团队推出Bootstrap3D框架,通过自动生成多视图图像数据来解决3D内容生成中高质量数据不足的问题。
具体来说,这个框架采用了2D和视频扩散模型来生成多视图图像,并利用一个经过微调的3D多模态大模型对生成的数据进行质量筛选和描述重写。
通过这种方式,Bootstrap3D能够自动产生大量高质量的3D图像数据,从而“自举”出一个足够大的数据集,辅助训练更优秀的多视图扩散模型。
这里插一嘴,在计算机科学和机器学习领域,“Bootstrap”通常指的是一种通过自举方法解决问题的技术。
数据构建Pipeline
具体来说,数据构建Pipeline是本次框架的核心创新之一,旨在自动生成高质量的多视图图像数据,并附带详细的描述文本。
主要分为以下几个步骤:
文本提示生成:首先,使用强大的大语言模型(如GPT-4)生成大量富有创意和多样化的文本提示。这些文本提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。
图像生成:利用2D扩散模型和视频扩散模型,根据生成的文本提示创建单视图图像。通过结合2D和视频扩散模型的优势,生成的图像具有更高的初始质量和多样性。
多视图合成:使用视频扩散模型将单视图图像扩展为多视图图像,生成不同角度的视图。这一步骤确保了每个对象在不同视角下的一致性,解决了传统方法中视图不一致的问题。
质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视图图像进行严格的质量筛选。筛选过程不仅过滤掉低质量的数据,还重写描述文本,使其更加准确和详细。
通过这个数据构建Pipeline,Bootstrap3D能够生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。
这一创新不仅解决了3D数据稀缺的问题,还显著提升了模型的生成效果和对文本提示的响应能力。
训练timestep重安排(TTR)
团队还提出了一种创新的训练timestep重新安排策略(TTR),以解决多视图扩散模型训练中的图像质量和视图一致性问题。
TTR策略的核心理念是在训练过程中灵活调整合成数据和真实数据的训练时间步,从而优化去噪过程的不同阶段。
去噪过程的阶段性特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频成分);在后期时间步,则主要生成图像的细节和纹理(高频成分)。这种阶段性特征为我们提供了调整训练策略的机会。
限制合成数据的训练时间步:由于合成数据可能存在一些模糊和失真,我们在训练时限制其时间步范围。具体来说,我们让合成数据主要参与早期的去噪阶段,确保它们对整体结构的贡献,而将后期的细节生成留给质量更高的真实数据。
分阶段训练策略:通过将合成数据限制在较大的时间步范围内(如200到1000步),我们确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图一致性。同时,真实数据则参与所有时间步的训练,以提供高频细节和真实感。这样的分阶段训练策略有效平衡了图像质量和视图一致性。
实验证明效果显著:广泛的实验结果表明,使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面均表现优异。该策略不仅保留了原始2D扩散模型的优点,还显著提升了多视图生成的效果。
通过训练时间步重新安排策略(TTR),Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量3D内容生成奠定了坚实基础。
好了,Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。
论文地址:
https://arxiv.org/abs/2406.00093/
项目主页:
https://sunzey.github.io/Bootstrap3D/
数据集地址:
https://huggingface.co/datasets/Zery/BS-Objaverse/
现场拔网线!第四范式版GPT能力首秀,有点不一样
国产大模型能大战,又有一员猛将入局。就在刚刚,第四范式自研大模型“式说”(4ParadigmSageGPT)在上线2个月后,终于来了一波能力首秀。而且纵观整场活动的发布,最直观的感受就是:不一样,着实不一样。怎么说?首先,他敢在现场演示的时候,拔!网!线!效果是这样的,例如上传一张《狂飙》剧照之后,让“式说”描述一下照片,它的回答是:这张照片中有一组穿着制服的男子站在一张桌子前。站长网2023-04-27 09:09:560005事关全淘系中小商家,阿里妈妈发布新产品,带来哪些利好?
回归淘宝,是今年以来阿里确定的重要基调,中小商家重新站上C位,针对他们的一系列利好措施在过去大半年密集释放。但对于很多中小商家来说,在一个成熟的电商平台经营,主要难点在于:存在经营门槛、找不到资源投入的方向,也不知道如何对生意进行有效的复盘和优化。站长网2023-08-12 10:05:460000保底最高20万元?淘宝入局游戏直播,一切为了“内容化”
大力做内容直播的淘宝,这次把手伸向了游戏直播。7月26日,淘宝直播王者荣耀明星邀请赛正式开启。这场由淘宝直播举办的自制赛事,为期10天左右,还设置了线上赛事和线下决赛。新播场了解到,这场活动背后,实则是淘宝直播正在大力招募游戏主播,并拿出了补贴政策。其中,优质游戏主播能拿到20万元/月的保底扶持。站长网2023-08-03 09:20:030000红米性能!Redmi K70版现身:天玑9300 搭配24GB 1TB满级规格
快科技6月9日消息,近日RedmiK70至尊版在IMEI数据库中现身,具体型号为2407FRK8EC”。该机此前也已经在国内获得3C认证,从各方面来看应该已经准备妥当,有望会在最近一个月左右发布。配置方面,RedmiK70至尊版将延续前两代的规划,搭载联发科天玑9300芯片,是目前安卓阵营最强性能,也是Redmi历史最强性能。站长网2024-06-11 17:13:220000担心工作被AI取代?大模型再造一个“黄金时代”
随着人工智能在数据、算力、算法、工具、模型等方面的技术推进,AI已经实现由实验室到产业应用的层级跃升,更广范围、更深层次地影响着人们的经济发展与生产生活方式变革。IDC数据显示,2022年全球人工智能收入预计同比增长19.6%,达到4328亿美元,包括软件、硬件和服务。预计2023年可突破5000亿美元大关。站长网2023-05-19 16:12:040003