5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D
使用大模型合成的数据,就能显著提升3D生成能力?
来自上海交大、香港中文大学等团队还真做到了。
他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。
结果表明,新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。
目前,Bootstrap3D的数据集已经全面开源。
用大模型合成数据
近年来,3D内容生成技术迎来了飞速发展。然而,相对于2D图片生成,生成高质量的3D物体仍面临诸多挑战。
其中核心的瓶颈即在于3D数据,尤其是高质量数据的不足。
为了解决这一问题,研究团队推出Bootstrap3D框架,通过自动生成多视图图像数据来解决3D内容生成中高质量数据不足的问题。
具体来说,这个框架采用了2D和视频扩散模型来生成多视图图像,并利用一个经过微调的3D多模态大模型对生成的数据进行质量筛选和描述重写。
通过这种方式,Bootstrap3D能够自动产生大量高质量的3D图像数据,从而“自举”出一个足够大的数据集,辅助训练更优秀的多视图扩散模型。
这里插一嘴,在计算机科学和机器学习领域,“Bootstrap”通常指的是一种通过自举方法解决问题的技术。
数据构建Pipeline
具体来说,数据构建Pipeline是本次框架的核心创新之一,旨在自动生成高质量的多视图图像数据,并附带详细的描述文本。
主要分为以下几个步骤:
文本提示生成:首先,使用强大的大语言模型(如GPT-4)生成大量富有创意和多样化的文本提示。这些文本提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。
图像生成:利用2D扩散模型和视频扩散模型,根据生成的文本提示创建单视图图像。通过结合2D和视频扩散模型的优势,生成的图像具有更高的初始质量和多样性。
多视图合成:使用视频扩散模型将单视图图像扩展为多视图图像,生成不同角度的视图。这一步骤确保了每个对象在不同视角下的一致性,解决了传统方法中视图不一致的问题。
质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视图图像进行严格的质量筛选。筛选过程不仅过滤掉低质量的数据,还重写描述文本,使其更加准确和详细。
通过这个数据构建Pipeline,Bootstrap3D能够生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。
这一创新不仅解决了3D数据稀缺的问题,还显著提升了模型的生成效果和对文本提示的响应能力。
训练timestep重安排(TTR)
团队还提出了一种创新的训练timestep重新安排策略(TTR),以解决多视图扩散模型训练中的图像质量和视图一致性问题。
TTR策略的核心理念是在训练过程中灵活调整合成数据和真实数据的训练时间步,从而优化去噪过程的不同阶段。
去噪过程的阶段性特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频成分);在后期时间步,则主要生成图像的细节和纹理(高频成分)。这种阶段性特征为我们提供了调整训练策略的机会。
限制合成数据的训练时间步:由于合成数据可能存在一些模糊和失真,我们在训练时限制其时间步范围。具体来说,我们让合成数据主要参与早期的去噪阶段,确保它们对整体结构的贡献,而将后期的细节生成留给质量更高的真实数据。
分阶段训练策略:通过将合成数据限制在较大的时间步范围内(如200到1000步),我们确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图一致性。同时,真实数据则参与所有时间步的训练,以提供高频细节和真实感。这样的分阶段训练策略有效平衡了图像质量和视图一致性。
实验证明效果显著:广泛的实验结果表明,使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面均表现优异。该策略不仅保留了原始2D扩散模型的优点,还显著提升了多视图生成的效果。
通过训练时间步重新安排策略(TTR),Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量3D内容生成奠定了坚实基础。
好了,Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。
论文地址:
https://arxiv.org/abs/2406.00093/
项目主页:
https://sunzey.github.io/Bootstrap3D/
数据集地址:
https://huggingface.co/datasets/Zery/BS-Objaverse/
“华米OV”的新战场:手机大模型
大模型重塑一切的风,吹到了手机行业。在见识了大模型重塑IT基础设施、营销、办公、自动驾驶等行业后,深陷于手机行业销量和技术双周期“低谷”的手机厂商们,急迫且高调地涌入大模型手机的赛道。走在前面的是华为和小米。今年8月,华为和小米先后宣布自家手机助手接入大模型。一时间,手机助手也拥有了类似ChatGPT一般的深度对话、自然语言理解以及编程能力。站长网2023-10-26 14:10:000002OpenAI 竞争对手 Anthropic 寻求新投资者
划重点:-💰AI初创公司Anthropic吸引了价值超过10亿美元的投资者兴趣。-🚫拒绝接受沙特阿拉伯资金,出于国家安全考虑。-💼拟通过售出FTX所持股份筹集资金,用于偿还客户债务。AI初创公司Anthropic近期吸引了投资者的兴趣,有一份价值超过10亿美元的股份备受关注。然而,该公司出于国家安全考虑已经拒绝了来自沙特阿拉伯的资金。0000斯坦福大学研究:强化学习智能体能间接学习语言技能
斯坦福大学的研究团队在自然语言处理领域取得了突破性进展,探究了强化学习(RL)智能体是否能在没有明确语言监督的情况下间接学习语言技能。研究的主要焦点是探索强化学习智能体是否能够像通过与环境互动以实现非语言目标的方式学习语言技能。为了实现这一点,研究团队设计了一个办公室导航环境,要求智能体尽快找到目标办公室。论文地址:https://arxiv.org/abs/2306.08400站长网2023-08-04 09:55:020001折扣店的“羊毛”,年轻人快薅不动了
田雨最近逛“嗨特购”有些郁闷,她购买了一盒面膜和两瓶橙汁,但在结账时发现多了4元,原因是店内区分为会原价和非会员价,如果办一张99元会员卡,她可以享受到更低的会员价格。对此,她感到很不理解,“我来折扣店就是为了薅羊毛,为什么要花钱办会员才能更好地享受低价的快乐?”站长网2023-06-18 17:18:530000马斯克、Grok与“数据封建主”
下周,马斯克踌躇已久的Grok就要上线了。在OpenAI接连甩出炸街新闻的这段时间,这事似乎没掀起太大波澜。然而,越低调的狙击,往往伤害越高。具体来说,Grok的这次年末突袭,隐藏了老马背刺OpenAI的一件“秘术”。所谓的“秘术”,其实也很简单,就是X平台上不断涌现的,真实的人类数据。在大模型数据愈发吃紧的今天,连OpenAI自己,也开始直接拿用户数据训练了。站长网2023-11-29 11:22:240000