清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN

站长网2023-08-22 18:50:310阅

SALMONN 是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型（LLM），能够处理语音、音频事件和音乐输入。

相比于只能处理语音或音频事件的模型，SALMONN 能够感知和理解各种音频输入，并因此具备了多语言语音识别和翻译以及音频 - 语音推理等新兴能力。可以说，SALMONN 为 LLM 提供了 "听觉"，使其具备了认知听觉能力，这是通向听觉启发的人工通用智能的一步。

Github仓库:https://github.com/bytedance/SALMONN/

Demo链接:https://bytedance.github.io/SALMONN/

该模型通过增加通用音频编码器和融合器来实现对音频模态的直接感知，使得模型可以直接从物理世界获取知识。

SALMONN 能够胜任英语语音识别、语音翻译、情感识别、音频字幕生成等任务，并展现了多种在模型训练中没有学习过的多语言和跨模态能力。研究团队将在近期开源 SALMONN v1.0模型及相关代码，并持续更新模型，为建设开源的通用人工智能做出贡献。

核心功能:

1. 处理语音、音频事件和音乐输入。

2. 实现多语言语音识别和翻译。

3. 进行音频 - 语音推理。

4. 支持根据文本和语音命令进行操作。

清华电子系联合火山语音开源全新的听觉大语言模型SALMONN

0000

评论列表

共(0)条

相关推荐

站长资讯
iPhone 16 Pro Max影像规格曝光升级4800万IMX903定制主摄
站长之家（ChinaZ.com）1月24日消息:据知名数码博主爆料，iPhone16ProMax将在影像方面实现重大升级，其主摄像头将首次达到4800万像素。这款主摄将采用索尼IMX903定制传感器，拥有惊人的1/1.14超级大底，不仅提升了拍照质量，还具备双层晶体管技术，支持14BitADC和DCG。
站长网2024-01-24 14:10:38
0000
站长资讯
手机型号的Pro、Plus、Mate都是什么意思？一篇文章让你彻底明白
关注大葱微数码，收获超级新鲜有趣的数码干货和资讯~甭管性能如何，取名一定要高大上。像Pro、Ultra、Note、Mate、SE、mini、Max这种手机圈“黑话”，不是资深的手机圈玩家还真未必能全部分清楚。今天小编就来带你们一起揭晓这些后缀的神秘面纱！
站长网2023-05-23 19:36:54
0000
AWS与NVIDIA扩大合作，提供先进的生成式AI基础设施
**划重点:**1.🌐AWS将成为首家在云上引入NVIDIAGH200GraceHopperSuperchips的云服务提供商，为联合客户提供规模化的AI计算能力。2.🤖合作包括在AWS上托管NVIDIADGXCloud，这是首个搭载GH200NVL32的云端AI培训服务，加速先进生成式AI和大型语言模型的训练。
站长网站长资讯2023-11-29 14:48:19
0000
站长资讯
Claude iOS版本突然推出！11MB大小，体验丝滑，网友呼吁语音功能快上线
Claude，深夜突然大放送iOS版本!就在几小时前，Anthropic官方突然给家人们送福利，官宣Claude正式推出iOSAPP，只有11MB。如此一来，可真像其官方说得那样:“前沿情报的力量，现在就在你的口袋里。”虽然Claude的手机版本上线显得有些姗姗来迟——去年5月，其最大劲敌OpenAI就推出了iOSAPP，但大多数用户们显然还是很开心这一操作。
站长网2024-05-04 12:36:23
0000
站长资讯
LeonardoAi推实时涂鸦AI绘画功能
近日，LeonardoAi也推出了实时的涂鸦AI绘画。而且免费无需等待，登录就能玩。LeonardoAi的实时AI绘画功能不仅速度快，还支持随时切换平台内的多种图像模型。用户可以根据自己的需求和创意，灵活选择适合的图像模型进行绘画。体验地址:https://app.leonardo.ai/live-canvas
站长网2023-12-06 12:05:22
0001