新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类
划重点🔍
- 以用户定义的条件为基础,如文本和姿势,实现超逼真人体图像生成。
- 引入结构扩散模型(DMs),成为生成AI中的主导架构。
- 跳出困扰先前模型的问题,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner实现高度逼真、多样化的人体图像生成。
- 建立了大规模人体中心数据集HumanVerse,包含340百万野外人体图像。
近日,一项名为HyperHuman的新型人工智能框架正式亮相,为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术,成功克服了以往模型在生成人体图像中面临的种种挑战。
用户无需专业技能,只需提供文本和姿势等条件,HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器(VAEs)以一种重建方式,要么通过生成对抗网络(GANs)提高逼真度。然而,这些方法在训练不稳定和模型容量有限的情况下,往往仅适用于小规模数据集,导致生成的图像缺乏多样性。

HyperHuman框架引入了结构扩散模型(DMs),成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合,成功解决了人体形态的非刚性变形问题。这两个模块相互协作,使得图像的外观、空间关系和几何在一个统一的网络中协同建模。
HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质,从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点,研究人员建立了一个名为HumanVerse的大规模人体中心数据集,其中包含340百万张野外人体图像,并进行了详细的注释。基于这个数据集,HyperHuman设计了两个关键模块,分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干,同时去噪RGB、深度和法线等方面,确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。

此外,HyperHuman还采用了强大的调制方案,以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划,低频信息泄漏得以消除,确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习,促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。
与当前技术的比较结果显示,HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中,展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB(512×512)。
HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。
项目网址:https://snap-research.github.io/HyperHuman/
论文网址:https://arxiv.org/abs/2310.08579
苹果AI研究取得重大进展 iPhone有望流畅运行复杂AI系统
据VB报道,苹果公司最近公布了两篇论文,展示了该公司在人工智能研究方面取得的重大进展。其中一项新技术有望让复杂的AI系统在iPhone、iPad等小内存设备上流畅运行。在论文中,苹果研究人员解决了一个关键挑战:如何在内存有限的设备上部署大语言模型(LLM)。0000Google 通过主动安全检查更新桌面版 Chrome
站长之家(ChinaZ.com)12月22日消息:本周,Google宣布将为桌面版Chrome推出一系列更新,旨在提高用户的浏览安全性和更好地控制浏览器内存使用情况。最引人注目的功能之一是桌面版Chrome的主动安全检查。自版本120起,安全检查将在后台运行,主动警报用户当检测到密码泄露或安装的扩展程序可能是恶意软件时。此外,它还会提醒用户及时更新Chrome,以保持最新的安全性。站长网2023-12-22 09:46:320000RTX 4070 SUPER刚上市一天:闪电破发!
1月17日晚,RTX4070SUPER新鲜上市,凭借不错的价格和性能被认为是一款良心卡”,但没想到仅仅一天,它就破发了!在波兰,耕升的RTX4070SUPERGhost标频版官方定价2999兹罗提,但零售平台X-Kom已经打出了2849兹罗提的破发价,降幅为5%。有趣的是,RTX4070在当地去年9月曾降至2880兹罗提,如今低至265兹罗提左右。站长网2024-01-19 09:02:450001上海科技大学推人脸模型HACK 可高质量生成3D人物模型
内容概要:HACK是一个新的参数化人脸模型,可以高质量生成人物头部的几何模型。HACK解决了现有模型的问题,包括缺乏亚洲人数据、拓扑结构和表情变形体过于简化以及缺乏颈部运动的建模。HACK提供了更个性化和解剖学一致的颈部和喉部控制,实现了更准确和表现力更强的头部运动。站长网2023-08-10 14:20:430001iPhone 15 Pro被投诉发热严重!苹果将送iOS 17.0.3更新:绝不降低速度
快科技10月4日消息,iPhone15Pro系列机身过热问题,备受用户的吐槽,苹果也是相当无奈。iPhone15Pro系列用上了全球唯一一颗3nm工艺芯片A17Pro,却疑似在高压力下不堪重负,能效极低,导致iPhone15Pro系列在日常使用的时候也频频过热发烫,成了火龙果”。对于用户的投诉,苹果承认了这个问题,并表示iOS17更新将会解决。站长网2023-10-04 09:02:380000