上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频
要点:
上海AI实验室和Meta联合开发的开源模型能够为人体生成3D空间音频,实现身临其境的3D音场效果。
该模型利用头戴式麦克风的音频信号和人体姿态作为输入,通过多模态融合模式解决音源位置未知、麦克风距离音源较远等技术难题。
尽管取得了在3D空间音频生成方面的技术突破,但目前仅适用于渲染人体音,难以处理非自由音场传播环境,计算量较大难以部署到资源受限的设备上。
近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点,成功地实现了为人体生成3D空间音频的目标。这一技术突破为虚拟环境的沉浸感和临场感提供了关键支持,弥补了目前学术界和企业在听觉方面的疏漏。
然而,从技术层面看,开发这样的3D空间音频模型并非易事。文章指出,面临着三大技术难题,其中包括音源位置未知、麦克风距离音源较远等挑战。为了解决这些问题,研究人员创新性地构建了多模态融合模式,并引入了身体姿态信息,从而成功消除了声源位置的歧义,实现了正确的空间音频生成。
具体而言,模型包括音频编码器、人体姿态编码器和音频解码器等模块。音频编码器处理头戴式麦克风的输入音频信号,通过时间平移对齐不同身体部位的音源位置,最终得到包含各个可能音源位置信息的音频特征表达。人体姿态编码器则分析人体姿态关键点,生成姿态特征表达,为正确生成三维空间音频提供了重要的提示。
项目地址:https://github.com/facebookresearch/SoundingBodies
尽管该模型在技术上取得了显著进展,成功实现了身临其境的3D音场效果,但研究人员也指出了其局限性。目前,该模型仅适用于渲染人体音,难以处理非自由音场传播环境,且计算量较大,难以在资源受限的消费类设备上部署。这一点对于模型的实际应用和推广提出了一定挑战。
综合而言,上海AI实验室和Meta联合开发的这一开源模型为人体生成3D空间音频开辟了新的可能性,为虚拟现实领域的发展贡献了有力的技术支持。然而,未来仍需进一步优化和拓展,以满足更广泛的应用场景和设备要求。
2023 年生成式 AI 进步的三大关键领域,为英伟达带来了丰厚的利润
OpenAI的首席执行官SamAltman承认,他对ChatGPT的流行感到惊讶,该聊天机器人在一年多前作为一个研究项目发布。OpenAI团队曾经花费了整个会议讨论是否值得将这个聊天机器人开放给公众。事实证明,OpenAI在2022年11月发布ChatGPT的决定成为了生成型人工智能的定义性时刻,并为2023年的投资热潮和大量新产品及服务的推出奠定了基础。0000谷歌拟推迟旗下人工智能项目 Gemini AI 发布时间
据TheInformation消息,谷歌推迟了旗下人工智能项目Gemini的发布时间,该项目旨在与OpenAI竞争。今年早些时候,谷歌告诉一些云客户和商业伙伴,他们将在11月份获得该公司的新对话式人工智能Gemini的使用权限。然而,根据两位知情人士的最新消息,谷歌最近告诉他们不要指望在明年第一季度之前获得Gemini的使用权限。站长网2023-11-17 08:54:410000百度搜索资源平台发布视频封面进阶要求
昨日,百度搜索资源平台发布了视频封面进阶要求,称创作者需要通过色彩的搭配,文字的排版设计等,展现封面制作的精良感和美感,第一时间抓住用户眼球,提升用户对内容的兴趣度。以下为具体规范:一,丰富画面信息量创作者可以有效利用文字的排版设计,在封面上加入文字,能够让用户了解视频的内容主体,增加文字的设计也会很大程度会更抓人眼球。站长网2023-05-12 09:23:50000076%的顶级金融公司正在使用AI/ML
最近一项调查显示,目前已有76%的顶级金融公司正在使用人工智能和机器学习(AI/ML)。这些先进技术正迅速渗透多个行业部门,为提高客户满意度、运营效率和业绩带来强大动力。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-12-15 11:46:420000OpenAI邀请前Twitter印度负责人担任高级顾问,探讨在印度的AI政策
**划重点:**1.🤝OpenAI与前Twitter印度负责人RishiJaitly合作,他担任高级顾问,就AI政策与印度政府进行讨论。2.🌏OpenAI积极考虑在印度建立本地团队,Jaitly在协助OpenAI理解印度政策和法规方面发挥关键作用。0000