解决Sora物理bug!四所美国顶尖高校联合发布PhysDreamer模型
Sora视频生成器发布后不久,就被网友发现存在物理交互的bug,例如模型对物理世界的理解不足,导致小狗走路时前腿出现不自然的交错问题。为了解决这一问题,提升视频生成的真实感,来自MIT、斯坦福大学、哥伦比亚大学和康奈尔大学的研究人员联合提出了一种基于物理的方法模型——PhysDreamer。
项目地址:https://top.aibase.com/tool/physdreamer
论文链接:https://arxiv.org/pdf/2404.13026.pdf
PhysDreamer利用视频生成模型学习到的对象动力学先验,为静态3D对象赋予交互式动力学。通过提炼这些先验知识,PhysDreamer能够合成现实物体对全新交互的响应,如外力或智能体操作,并在弹性物体的不同示例上展现了该方法的效果。
问题形式化
PhysDreamer的目标是估计对象的物理材料属性场,以实现真实的交互式运动合成。具体来说,就是估计3D物体的空间变化杨氏模量场E(x),以进行粒子模拟。杨氏模量用来测量材料的刚度,决定物体响应外力作用的运动轨迹。
模型架构
PhysDreamer通过生成运动中物体的可信视频,然后优化材料场E(x)以匹配合成运动。给定一个表示为3D高斯的对象,首先从某个视点进行渲染,然后使用图像到视频生成模型来生成运动中物体的参考视频。接着,使用可微分材质点方法(MPM)和可微分渲染,对空间变化的材质场和初始速度场进行优化,旨在最小化渲染视频和参考视频之间的差异。
实验结果
研究人员收集了八个真实世界的静态场景,并捕捉了四个交互视频来说明其在交互后的自然运动。在用户研究中,超过80%的参与者在两项选择实验中更倾向于PhysDreamer模型,认为其在运动的真实性上更胜一筹;在视觉质量方面,也有65%的参与者更偏好PhysDreamer。
PhysDreamer模型的发布,为解决视频生成中的物理交互问题提供了一种有效的解决方案。通过估计物体的物理材料属性,PhysDreamer能够合成更加逼真的物体动态行为,显著提升了视频生成的真实感。这一研究成果有望推动视频生成技术的发展,为未来的应用带来更多可能性。
荣耀畅玩50正式开售:1199元起 配备5200mAh电池
站长之家(ChinaZ.com)4月19日消息:荣耀畅玩50正式开售,该机搭载高亮清晰灵动大屏,售价1199元起。拥有6GB128GB和8GB256GB两个版本可选,售价分别为1199元和1399元。据介绍,荣耀畅玩50配备了天玑6100处理器,CPU组成为2x2.2GHzA76核心和6x2.0GHzA55核心,GPU为MaliG57MC2。站长网2024-04-19 11:39:570000三星和 SK 加快人工智能半导体的开发以应对 ChatGPT
三星电子和SK海力士正在加快下一代半导体技术的开发,以适应人工智能(AI)时代的到来,而ChatGPT的出现更加加速了这个过程。据业内消息称,三星电子最近开发了业内首款支持ComputeExpressLink(CXL)2.0的128GBCXLD-RAM。站长网2023-05-15 17:52:390000蔚来李斌回应自研芯片“杨戬”:一年就能收回研发成本
蔚来CEO李斌宣布,蔚来成功研发出其首颗自研芯片,型号为NX6031,这颗芯片也被称为业界首颗自研激光雷达主控芯片,被赋予了“杨戬”的名字。在谈到这款自研芯片的规划时,李斌表示,“杨戬”的推出将使蔚来单车的激光雷达成本下降数百元,他预计仅需一年左右的时间就可以收回研发成本。同时他还强调,这款芯片只是蔚来小试牛刀的产品,未来他们还计划开发更为主力的芯片,并在适当的时机进行发布。站长网2023-09-21 17:06:190000微软发布声音克隆技术Personal Voice 提供1分钟样本即可生成AI语音
微软近日发布了一项名为PersonalVoice的新技术,该技术可以克隆用户的声音,并且能够复制出与原声音完全一致的人工智能语音。用户只需提供1分钟的语音样本,PersonalVoice就能在几秒钟内生成相应的AI语音。站长网2023-11-17 11:17:140001keep通过港交所上市聆讯 一季度营收4.47亿元
据港交所公开信息显示,运动科技公司Keep已通过上市聆讯。招股书披露,招股书显示,2020年至2022年,Keep营收分别为11亿元、16亿元和22亿元。毛利分别为4.99亿元、6.77亿元、9亿元。经调整亏损净额分别为1.06亿元、8.27亿元及6.67亿元。截至2023年3月31日,Keep平台平均月活跃用户数为2626万。站长网2023-06-26 00:57:270000