上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频
要点:
上海AI实验室和Meta联合开发的开源模型能够为人体生成3D空间音频,实现身临其境的3D音场效果。
该模型利用头戴式麦克风的音频信号和人体姿态作为输入,通过多模态融合模式解决音源位置未知、麦克风距离音源较远等技术难题。
尽管取得了在3D空间音频生成方面的技术突破,但目前仅适用于渲染人体音,难以处理非自由音场传播环境,计算量较大难以部署到资源受限的设备上。
近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点,成功地实现了为人体生成3D空间音频的目标。这一技术突破为虚拟环境的沉浸感和临场感提供了关键支持,弥补了目前学术界和企业在听觉方面的疏漏。
然而,从技术层面看,开发这样的3D空间音频模型并非易事。文章指出,面临着三大技术难题,其中包括音源位置未知、麦克风距离音源较远等挑战。为了解决这些问题,研究人员创新性地构建了多模态融合模式,并引入了身体姿态信息,从而成功消除了声源位置的歧义,实现了正确的空间音频生成。
具体而言,模型包括音频编码器、人体姿态编码器和音频解码器等模块。音频编码器处理头戴式麦克风的输入音频信号,通过时间平移对齐不同身体部位的音源位置,最终得到包含各个可能音源位置信息的音频特征表达。人体姿态编码器则分析人体姿态关键点,生成姿态特征表达,为正确生成三维空间音频提供了重要的提示。
项目地址:https://github.com/facebookresearch/SoundingBodies
尽管该模型在技术上取得了显著进展,成功实现了身临其境的3D音场效果,但研究人员也指出了其局限性。目前,该模型仅适用于渲染人体音,难以处理非自由音场传播环境,且计算量较大,难以在资源受限的消费类设备上部署。这一点对于模型的实际应用和推广提出了一定挑战。
综合而言,上海AI实验室和Meta联合开发的这一开源模型为人体生成3D空间音频开辟了新的可能性,为虚拟现实领域的发展贡献了有力的技术支持。然而,未来仍需进一步优化和拓展,以满足更广泛的应用场景和设备要求。
孙燕姿的饭碗,也被AI盯上了
孙燕姿可能都没想到,自己的“代表作”会加上一个《漠河舞厅》。替孙燕姿唱歌的,是AI孙燕姿。最近,一批B站UP主用AI技术合成了孙燕姿版的《发如雪》《半岛铁盒》《红豆》,和其他港台歌手“梦幻联动”,还让孙燕姿唱起了更新的歌,《水星记》《漠河舞厅》等等,很多孙燕姿的粉丝都表示“绝对想不到孙燕姿会唱这种类型的歌。”站长网2023-05-17 14:41:440000Prismer: 一个专家集合的视觉语言模型 支持多节点训练
prismer是一种视觉语言模型的实现,旨在提供一个具有专家集合的系统。该系统基于PyTorch1.13开发,使用了Huggingface的加速工具包,支持多节点多GPU的训练。它可以进行图像描述和视觉问答等任务,并且在预训练和微调方面都取得了良好的性能。通过继承来自公开的、预先训练的领域专家的大部分网络权重并在训练期间冻结它们,Prismer只需要训练几个组件。站长网2023-07-25 15:51:460000独家|年薪百万招兵买马,拼多多杀入大模型
Tech星球独家获悉,拼多多已经成立了一个数十人的大模型团队,团队位于上海。大模型团队将探索大模型在拼多多客服、对话等场景下的应用,且会拓展至其旗下跨境电商平台TEMU智能客服、搜索、推荐等业务场景。目前,整个进程仍处于研发阶段。行业分析人士认为,拼多多的大模型将为其电商体系进行服务,包括在AI导购、商品图片智能生成等方面的应用。站长网2023-11-22 14:10:050000最高年薪600万!多名前OPPO哲库骨干加盟新公司曝光:研发自动驾驶芯片
快科技7月21日消息,OPPO之前突然解散了哲库让人唏嘘不已,而原来公司的骨干也各奔东西,其中一些骨干也是有了新的去除。据最新消息显示,哲库公司十数名管理层近期加入自动驾驶公司Momenta。有知情人士称,高管们年薪普遍在200万元-600万元区间。此次Momenta如此大手笔吸纳芯片行业人才,与其新的战略布局有关。站长网2023-07-21 22:05:270000古生物学家发现4.5亿年前海洋中的凶猛“捕手”,长这样→
远古发现丨4.5亿年前,这种远古“萌物”竟是海洋中的凶猛“捕手”记者从中国科学院南京地质古生物研究所获悉,该所研究人员与英国古生物学者合作,在我国浙江省安吉县发现一种约4.5亿年前的远古节肢动物——安吉古鲎。安吉古鲎长着圆滚滚的脑袋,外形非常可爱。不过,它其实是当时海洋中的一种凶猛肉食动物,堪称远古海洋中的“萌系霸主”。安吉古鲎复原图(中科院南京地质古生物研究所杨定华绘)站长网2023-05-23 19:43:300000