多模态神经网络SALMONN 能够理解声音世界的AI模型
站长网2023-10-25 12:56:351阅
SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。

论文地址:https://arxiv.org/pdf/2310.13289v1.pdf
SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。
论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。
0001
评论列表
共(0)条相关推荐
桥水基金创始人达利欧:人工智能将在一年内极大地颠覆我们的生活
亿万富翁投资家瑞·达利欧(RayDalio)确信,人工智能很快将成为我们生活中的「重大颠覆者」——无论是好是坏。达利欧在2023年FastCompany创新节上表示,人工智能将帮助人们在生产力、教育、医疗保健等领域取得进步,甚至可能引领实行每周工作三天的制度。另一方面,它可能会「扰乱就业」,成为支持停止或减缓人工智能发展的雇员和立法者之间的「争议」原因。站长网2023-09-21 10:09:520000AI视野:Midjourney开始训练视频模型;文心一言用户破亿;优酷上线“AI搜片”功能;快手开源KwaiAgents系统
📰🤖📢AI新鲜事Midjourney开始训练视频模型Midjourney昨晚发布了重要消息,将开始视频模型训练,同时计划下周推出V6版本的重大更新。该更新将在文本处理方面有显著进步,提高内容连贯性和提示准确性。重点改进包括Inpainting功能和全新的风格调整器,为V7版本的重大更新做准备。【AiBase提要:】站长网2023-12-28 16:15:240000机构预计华为P70系列4月发布:内置自研盘古大模型
快科技3月25日消息,据国内媒体报道,供应链方面已经确认开始向华为P70系列供货,预计在4月准时发布。P系列作为主打影像功能的高端旗舰,这次会达到华为最强规格。据爆料,P70预计会以AI摄影为核心亮点,内置了华为自研的盘古大模型,可以通过AI对拍摄画面进行清晰化、细致化的处理,类似小米在超长焦摄影中引入的AI技术。0001OpenAI 有望在两到三年内成为价值万亿美元的公司
划重点:-李开复对OpenAI在未来两到三年内成为一家价值万亿美元的公司感到乐观。-💡李开复对OpenAI在技术上的卓越表现表示赞赏,但对其缺乏开放性表达了关切。-💡OpenAI最近发布了GPT-4o,具备文本、视觉和音频的“全能”能力,并计划将其免费提供给用户。中国投资者和连续创业者李开复最近表示,他看好OpenAI在两到三年内成为一家万亿美元的公司。站长网2024-05-27 16:34:050000谷歌在 Pixel 8 Pro 上推出首个 AI Core 更新
谷歌今天推出了一项名为AICore的新Google应用程序更新。根据GooglePlay商店的描述,AICore将为GooglePixel8Pro手机的Android系统和应用程序提供最新的AI模型支持,以及其他一系列AI驱动功能。0000