清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN
站长网2023-08-22 18:50:310阅
SALMONN 是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型(LLM),能够处理语音、音频事件和音乐输入。
相比于只能处理语音或音频事件的模型,SALMONN 能够感知和理解各种音频输入,并因此具备了多语言语音识别和翻译以及音频 - 语音推理等新兴能力。可以说,SALMONN 为 LLM 提供了 "听觉",使其具备了认知听觉能力,这是通向听觉启发的人工通用智能的一步。
Github仓库:https://github.com/bytedance/SALMONN/
Demo链接:https://bytedance.github.io/SALMONN/
该模型通过增加通用音频编码器和融合器来实现对音频模态的直接感知,使得模型可以直接从物理世界获取知识。
SALMONN 能够胜任英语语音识别、语音翻译、情感识别、音频字幕生成等任务,并展现了多种在模型训练中没有学习过的多语言和跨模态能力。研究团队将在近期开源 SALMONN v1.0模型及相关代码,并持续更新模型,为建设开源的通用人工智能做出贡献。
核心功能:
1. 处理语音、音频事件和音乐输入。
2. 实现多语言语音识别和翻译。
3. 进行音频 - 语音推理。
4. 支持根据文本和语音命令进行操作。
0000
评论列表
共(0)条相关推荐
小红书新号单条点赞收藏破千,涨粉过百,分享我的一些经验浅谈
前几天,在我们的知乎群聊到了小红书这块,发现做自媒体的今年基本上很多人都同步做了小红书,从大家的分享下了解,目前小红书仍还处于有一定的流量红利,相对而言平台上的内容质量和用户质量也都比较高。实际上,这块我在去年就有过想法想去尝试,因为朋友圈有很多做小红书引流这块的基本上都拿到了结果,同时,也有很多人开启了专门针对小红书引流这块的培训,用户需求量还挺高,很多人都对这块有需求。站长网2023-05-11 11:36:320002GPT-4化身黑客搞破坏,成功率87%,OpenAI要求保密提示词,网友复现ing
91行代码、1056个token,GPT-4化身黑客搞破坏!测试成功率达87%,单次成本仅8.8美元(折合人民币约63元)。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。结果发现只有GPT-4能够在阅读CVE漏洞描述后,学会利用漏洞攻击,而其它模型成功率为0。站长网2024-04-22 16:10:090000苹果推出iPad版 Final Cut Pro 与 Logic Pro 5月24日上架
苹果宣布推出iPad版FinalCutPro与LogicPro。北京时间5月24日(周三)起,iPad版FinalCutPro与LogicPro将以订阅服务方式在AppStore推出。站长网2023-05-10 09:00:510000人工智能之父Geoffrey Hinton 警告科技发展难预知 AI 可能会取代人类
据国外媒体报道,被称为“人工智能之父”的杰弗里·辛顿最近在接受《60分钟》采访时警告,人工智能的快速发展存在巨大隐忧,科技有可能在某个时间点超越并最终取代人类。辛顿表示,人工智能可能在5年内就能比人类进行更好的推理。他担心人类是否能充分理解这个飞速发展的技术。一旦事情变得极为复杂,人类对技术内部运行机制的理解就会很有限,正如人类无法完全洞悉大脑的神秘运作。站长网2023-10-10 15:02:100000京东:截止24日零点 双11价保服务已为消费者节省1.02亿元
京东11.11期间,京东对价保服务进行重磅升级,超8亿商品享全程价保,即消费者在10月23日晚8点至11月13日24点购买的价保服务覆盖商品,均可享受30天及以上的价保,点击“一键价保”立享差价退回。据京东公布数据,自10月23日晚8点开启至24日零点,价保服务已经为消费者节省1.02亿元。站长网2023-10-25 19:18:020002