多模态神经网络SALMONN 能够理解声音世界的AI模型
站长网2023-10-25 12:56:351阅
SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。
论文地址:https://arxiv.org/pdf/2310.13289v1.pdf
SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。
论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。
0001
评论列表
共(0)条相关推荐
把“全世界”搬进直播间,我在淘宝做跨境电商直播
全球达人们正涌入淘宝直播。刚刚过去的这届618大促期间,全网百万粉丝的探店达人“锁哥在日本”把日语小课堂搬到了淘宝直播,边教日语边带货;日本女团成员“小小葵呀”用宅舞开启直播首秀;全网粉丝百万的“泰国阿芳夫妇”入淘直播首秀则吸引了近百万粉丝围观。在这个疫情放开后的首个大促,全球达人们通过直播架起进口消费的重要桥梁,让消费者积压了三年的跨境购物需求得以释放。站长网2023-07-05 19:41:390002大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
人工智能的反馈(AIF)要代替RLHF了?大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了很多种微调方式,其中一些取得了很好的效果。最近,来自Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,给人带来了一点新的震撼。站长网2024-01-21 11:06:230000AI生成系统CityDreamer:可创建无限的 3D 城市街景
文章概要:1.CityDreamer是一种生成式AI模型,可以创建无限的3D城市环境。2.通过将建筑实例生成与其他背景对象分离,可以更好地处理建筑多样性。3.使用真实城市数据集训练,可以增强生成结果的真实性。相比生成自然场景,用AI创建城市更复杂,因为可以更容易察觉结构失真。CityDreamer是一种生成式AI系统,专门用于创建开放式的、无边界的3D城市环境。站长网2023-09-06 17:36:020001多模态AI模型Unified-IO2:可理解和生成图像、文本、音频和动作
**划重点:**1.🌐**多模态整合前沿**:Unified-IO2是一款具有自回归能力的多模态AI模型,能够处理和生成文本、图像、音频和视频等多种数据类型,标志着人工智能领域的重大突破。2.🧠**创新架构**:采用独特的单编码器-解码器变压器模型,通过共享的表示空间对不同输入进行编码,克服了以往模型在处理多模态数据时的限制,展现了其卓越的设计和性能。站长网2024-01-02 10:08:200000阿里推ReplaceAnything框架 可通过AI替换万物 马斯克分分钟变厨子!
要点:阿里智能计算研究院提出的ReplaceAnything框架,可以通过AI替换万物,包括服装、证件照背景、人脸、背景等多个维度。该框架引起社区热议,网友表示可以实现虚拟偶像产业化,甚至贴近产品调性替换人脸,降低明星代言费用。ReplaceAnything工具免费试玩,通过上传图片、选择保留对象、输入Prompt或参考图像、点击生成按钮等步骤,可轻松进行替换。站长网2024-01-15 16:04:480000