语义听觉革新:可让智能耳机在消除环境噪音的同时保持空间感知
要点:
华盛顿大学和微软的研究人员推出了一项先进的机器学习算法驱动的噪音消除耳机技术,具备语义听觉能力,使用户能够选择他们想听到的声音,同时消除其他听觉干扰。
该技术解决了传统噪音消除耳机的关键问题,强调了这些耳机在实时智能方面的不足,无法从环境中识别和隔离特定声音,从而确保用户听觉和视觉感知的无缝同步。
与传统耳机不同,该创新原型采用分类系统处理传入声音,使用户能够通过选择他们想要听到的声音来个性化他们的听觉体验。利用用户手机上的专门神经网络实现快速声音处理,为用户提供更强大的体验。
华盛顿大学和微软的研究人员推出了一项引领先进科技的创新,即噪音消除耳机具备语义听觉能力,由先进的机器学习算法驱动。这项技术的核心目标是让佩戴者能够有选择地听到他们想要听到的声音,同时消除其他环境中的干扰声音。文章着重介绍了这一创新的动机,指出传统噪音消除耳机在实时智能方面的不足,无法迅速识别和隔离特定声音,这导致了听觉和视觉感知之间的不同步。
为了解决这一问题,研究团队采用了一种全新的方法,不再仅仅专注于消除特定频率的声音或减弱来自环境的声音,而是通过一种分类系统对传入的声音进行处理。这使用户能够通过选择他们感兴趣的声音来个性化他们的听觉体验。
项目地址:https://semantichearing.cs.washington.edu/
通过一系列试验,原型展示了在各种环境中的潜在应用,从在吸尘器噪音中进行对话到专注于鸟鸣声,甚至在施工噪音中保持对交通喇叭的警觉。这一创新还在冥想中起到了作用,通过消除环境噪音,除了结束时的警报之外,提供了一种安静的氛围。
为了实现快速声音处理,关键在于利用比耳机内部集成的设备更强大的工具,即用户的智能手机。这种手机上的专门神经网络被设计用于进行双耳声音提取,为整个系统提供更快的响应时间。通过实验证明,基于转换器的网络在连接的智能手机上仅需6.56毫秒就能够处理20种不同的声音类别,并在室内和室外等多种场景中展示了其在提取目标声音同时保留空间线索方面的有效性。
这项噪音消除技术的创新为提升用户在各种环境中的体验打开了新的可能性,使个体能够实时定制其听觉环境,超越了传统耳机的局限。随着团队不断完善这一创新并准备发布代码,个性化音景似乎越来越接近现实。这一创举为未来提供了广阔的前景,让个体能够轻松定制他们的声音体验。
遥遥领先的GPT-4o,为什么要免费开放?
5月14日凌晨,OpenAI2024年春季发布会上线。这场发布会,表面看有点简陋(全程只有26分钟,现场只有几十名观众),却是科技圈公认的魔法时刻。因为OpenAI上线了一款可以跟人“谈恋爱”的大模型——GPT-4o。站长网2024-05-15 10:21:150000语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS
伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。站长网2024-02-15 16:20:430000今日AI:阿里欲推AI电商产品“绘蛙”;北大团队发起复现Sora计划;ComfyUI LayerDiffusion正式上线;AI工具DUSt3R GitHub爆火
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用阿里正在打造一款AI电商产品“绘蛙”【AiBase提要:】⭐该产品主要针对商家和达人,主要功能有AI文案生成和AI生图站长网2024-03-04 21:38:080001突破性文本生成视频方法LVD,利用LLM创建动态场景布局
文章概要:1.困扰文本提示生成视频的挑战:研究团队引入LLM-GroundedVideoDiffusion(LVD)方法,以解决生成复杂时空动态视频的问题。2.LVD采用大型语言模型(LLMs)来创建动态场景布局(DSLs),作为视频生成的蓝图,同时发现LLMs具有惊人的能力来捕捉时空关系和复杂动态。站长网2023-10-10 16:30:020000GPT或被抛弃?AI未来是世界级模型?国内AI模型只能存活三个?
为什么科学家不相信原子?如果你试过让ChatGPT随便讲个笑话(英语),那你大概率见过这个:两位德国学者对GPT3.5做了个大型测试,发现它其实只会讲25个笑话。1008次结果中有90%都是25个笑话的变体,只是稍微改变一下措辞或句式。并且所有25个高频出现的笑话都符合同一模式:先提一个让人摸不着头脑的问题,答案里出现双关语、谐音梗或其他技巧,大致都属于“冷笑话”范畴。站长网2023-06-12 17:13:020001