新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类
划重点🔍
- 以用户定义的条件为基础,如文本和姿势,实现超逼真人体图像生成。
- 引入结构扩散模型(DMs),成为生成AI中的主导架构。
- 跳出困扰先前模型的问题,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner实现高度逼真、多样化的人体图像生成。
- 建立了大规模人体中心数据集HumanVerse,包含340百万野外人体图像。
近日,一项名为HyperHuman的新型人工智能框架正式亮相,为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术,成功克服了以往模型在生成人体图像中面临的种种挑战。
用户无需专业技能,只需提供文本和姿势等条件,HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器(VAEs)以一种重建方式,要么通过生成对抗网络(GANs)提高逼真度。然而,这些方法在训练不稳定和模型容量有限的情况下,往往仅适用于小规模数据集,导致生成的图像缺乏多样性。
HyperHuman框架引入了结构扩散模型(DMs),成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合,成功解决了人体形态的非刚性变形问题。这两个模块相互协作,使得图像的外观、空间关系和几何在一个统一的网络中协同建模。
HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质,从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点,研究人员建立了一个名为HumanVerse的大规模人体中心数据集,其中包含340百万张野外人体图像,并进行了详细的注释。基于这个数据集,HyperHuman设计了两个关键模块,分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干,同时去噪RGB、深度和法线等方面,确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。
此外,HyperHuman还采用了强大的调制方案,以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划,低频信息泄漏得以消除,确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习,促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。
与当前技术的比较结果显示,HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中,展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB(512×512)。
HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。
项目网址:https://snap-research.github.io/HyperHuman/
论文网址:https://arxiv.org/abs/2310.08579
理想汽车10月共计交付新车40422辆 同比增长302.1%
理想汽车宣布,月交付量破四万,理想汽车2023年10月交付40,422辆。2023年10月,理想汽车共计交付新车40,422辆,同比增长302.1%,月交付首次突破四万辆大关。截至2023年10月31日,理想汽车全年累计交付284,647辆。此外,截至2023年10月31日,理想汽车在全国已有372家零售中心,覆盖133个城市;售后维修中心及授权钣喷中心315家,覆盖210个城市。站长网2023-11-01 16:58:2500005分钟5000元,五一挤到天上了
“五一出行,怎么才能避开人山人海?”陈琳很早就开始琢磨。她最终决定,“飞到天上”躲一躲。但没想到,一连预约了几家高空跳伞基地,得到的回复都是,“对不起,没有位置了”。今年五一,不但地上挤,天上也开始挤了。从数千米的高空纵身一跃,经历几十秒的高速自由落体后,当伞包打开,就可以像鸟儿一样,在碧海蓝天间翱翔了……站长网2023-05-04 15:29:380000B站改革,中长视频或迎来价值重估?
在长短视频之间游移许久之后,B站选择回到安全区,以新的评估标准衡量内容价值。6月26日,B站14周年庆晚会上,B站董事长兼CEO陈睿宣布,为了更好地挖掘B站的优质内容,B站将以播放分钟数替代目前外显的播放次数。据悉,产品更新将于未来几周内完成。站长网2023-07-10 18:31:470000金山软件一季度营收19.7亿元 雷军:将持续深耕人工智能
今日,金山软件发布公告称,第一季度实现营收19.7亿元,同比增长6%,环比下降7%;净利润1.92亿元,同比增长96%,环比增长304%。对此,金山软件董事长雷军表示:二零二叁年第一季度,金山办公集团全力推进人工智能新技术在应用层面落地,积极投入相关研发;面对生成式人工智能和大语言模型带来的技术变革,金山办公集团重点发力人工智能领域,与大语言模型公司合作,专注自身业务,做好应用层。站长网2023-05-23 17:11:530000Google Assistant 即将集成 Bard AI:用户可选择经典或 AI 增强版本
Google正在为其移动设备上的Assistant集成新的AI功能,即将推出名为「ClassicAssistant」的版本。站长网2023-11-24 10:46:180000