25倍压缩率!HiFi4G渲染技术实现照片级真实人体建模和高效渲染
**划重点:**
1. 🌐 HiFi4G实现了从密集视频中重新创建高保真4D人体表演的全显式和紧凑方法。
2. 🎮 HiFi4G在优化速度、渲染质量和存储开销方面明显优于当前的隐式渲染技术。
3. 📦 研究团队提供了一种压缩方法,使HiFi4G在每帧不到2MB的存储空间下,以约25倍的压缩率,可在各种设备上实现沉浸式观看人体表演。
近日,上海科技大学、NeuDim、字节跳动和DGene的研究团队共同发布了一篇名为《HiFi4G:人体建模和高效渲染的突破性进展》的AI论文。该论文介绍了HiFi4G,这是一种全新的、全显式且紧凑的高斯方法,用于从密集视频中重新创建高保真的4D人体表演。
这项研究的主要亮点在于,HiFi4G通过将非刚性跟踪与3D高斯表达相结合,成功分离了运动和外观数据,从而实现了紧凑且压缩友好的表达。相较于当前的隐式渲染技术,HiFi4G在优化速度、渲染质量和存储开销方面取得了明显的改进。
具体而言,研究团队首先提出了一种双图方法,包括细粒度高斯和粗略变形图,以自然地将高斯表示与非刚性跟踪连接起来。通过使用NeuS2创建每帧几何代理,并以关键帧的方式使用嵌入式变形(ED),这一显式跟踪技术将序列划分为部分,为每个部分内的运动提供了丰富的历史信息。
接下来,研究团队为进一步初始化构建了一个细粒度高斯图,通过从粗略ED网络中插值每个高斯运动。为了平衡高斯特征和非刚性运动先验的更新,研究团队提出了一种4D高斯优化方法。他们使用时间正则化器确保每个高斯的外观属性的一致性,如不透明度、缩放系数和球谐(SH)。对于运动特征(位置和旋转),研究团队建议使用平滑项,以在相邻高斯之间生成局部尽可能刚性的运动。
为了应对在表现小而非刚性运动的区域出现的颤动现象,研究团队为这些正则化器添加了自适应加权机制。经过优化,研究团队生成了时空紧凑的4D高斯。为了使HiFi4G对用户更加实用,研究团队提出了一种伴随的压缩技术,采用传统的残差校正、量化和熵编码,以适应各种平台上的低存储沉浸式人体表演体验。
HiFi4G作为一种用于高保真人体表现渲染的方法,具有以下特色功能:
紧凑的高斯喷溅表示法: HiFi4G采用3D高斯表达与非刚性跟踪相结合,实现了紧凑且压缩友好的表示。这种方法通过采用双图机制,包括粗糙变形图和细粒度高斯图,来获得运动的先验知识。
双图机制: 引入了双图机制,其中包括一个用于有效初始化的粗糙变形图和一个用于强制约束的细粒度高斯图,以实现对非刚性运动的建模。
4D高斯优化方案: 采用了4D高斯优化方案,其中包括自适应的时空正则化器,以有效平衡非刚性先验和高斯更新,实现高质量的人体表现渲染。
伴随的压缩方案: 提出了一个伴随的压缩方案,包括残差补偿,可在各种平台上实现沉浸式体验。该方案实现了约25倍的压缩率,每帧不到2MB的存储开销。
关键帧非刚性跟踪: 通过基于关键帧的非刚性跟踪,建立了一个粗糙变形图,并跟踪了高斯优化的运动,为后续渲染提供支持。
实时高保真渲染: HiFi4G能够在实时性要求下,对具有挑战性动作的人体表现进行高保真渲染,例如演奏乐器、跳舞和更衣等。
渲染结果:HiFi4G 可实时高保真地渲染人类在演奏乐器、跳舞和换衣服等具有挑战性的动作中的表现。
在应用场景上,HiFi4G可以用于电影、电视剧和游戏制作,实现更逼真、高保真的人物表现渲染。特别是在需要展现复杂人体动作,如演奏乐器、跳舞和更衣等情境下,可以提供更真实的画面效果。另外,由于HiFi4G能够实现实时高保真渲染,它在虚拟现实和增强现实应用中也具备广泛的应用前景。用户在虚拟环境中进行各种活动时,可以获得更具沉浸感的体验。
项目网址:https://nowheretrix.github.io/HiFi4G/
论文网址:https://arxiv.org/abs/2312.03461
AI批量生成爆款文章一天2小时、1年赚15万 真相来了
快科技5月9日消息,随着生成式AI技术的兴起,有人称可以利用AI技术批量生产爆款文章,声称每天只需1-2小时,一年就能赚取15万元。对此,微信公众平台运营中心发布声明提醒,部分公众号利用AI技术作为卖点,宣称能够批量生成或制造爆款文章。然而,实际上这些公众号是通过夸大其词、宣传与实际情况不符的收益或成果,以诱导用户购买相关课程或服务。站长网2024-05-10 10:02:100000英伟达推出更强大的升级款人工智能芯片 GH200:内存是 H100 的三倍
英伟达于周二发布了一款设计用于运行人工智能模型的新芯片,以抵挡包括AMD、谷歌和亚马逊在内的竞争对手在AI硬件领域的挑战。站长网2023-08-09 08:49:030000滑雪火出圈后,互联网拯救了多少00后新手的首滑焦虑?
“最热“”滑雪季从步入冬季开始,很多年轻人都只有两个终极目标:等过年和盼滑雪。12月以来,大雪陆续飘向全国各地,人们对滑雪的期待被拉至峰值。#看完我也想学滑雪了#、#滑雪治愈了我的冬季抑郁#和#第一次滑雪需要注意什么#在这个冬天频繁登上热搜。不少人在工位、心在雪场的年轻人,掏出手机搜索“滑雪”的频率开始日益增加。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-12-29 14:19:590000英伟达发布430亿参数大模型ChipNeMo
要点:1.英伟达发布了拥有430亿参数的大语言模型ChipNeMo,专注于辅助芯片设计,提高工作效率。2.ChipNeMo支持问答、EDA脚本生成、Bug总结和分析等任务,帮助芯片设计师完成工作。3.ChipNeMo的研发采用了领域自适应技术,提升了性能并减小模型大小。站长网2023-11-01 09:21:040000AntGPT:一个视频中长期行为预测大型语言模型
AntGPT是一个将大型语言模型应用于视频长期行为预测(LTA)的视觉语言框架。研究人员通过使用监督动作识别算法识别人类活动,并将其作为离散化的视频表示输入给OpenAIGPT模型。通过自回归方法、微调或上下文学习,GPT模型可以预测未来的行动序列,从而实现从底向上的行动预测。项目地址:https://brown-palm.github.io/AntGPT/站长网2023-08-07 10:38:220000