阿里巴巴推大规模音频语言模型Qwen-Audio
要点:
阿里巴巴研究团队推出了Qwen-Audio系列,这是一组具有通用音频理解能力的大规模音频语言模型。
Qwen-Audio通过采用层次标签的多任务框架,成功应对了多样化任务的挑战,并在基准任务上取得了令人印象深刻的性能,无需特定任务的微调。
Qwen-Audio-Chat是在Qwen-Audio基础上构建的,支持多轮对话和各种音频中心场景,展示了其通用音频理解能力。
阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架,成功解决了有限的预训练音频模型面临的多样化任务的挑战。
相比之前专注于语音的工作,Qwen-Audio不仅包含人类语音,还涵盖了自然声音、音乐和歌曲,实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色,而无需进行特定任务的修改。
Qwen-Audio的多任务框架有助于减轻干扰,实现了在基准任务上的显著性能。Qwen-Audio-Chat作为扩展,不仅支持多轮对话,还适用于各种音频中心场景,展示了在大规模音频语言模型中全面的音频交互能力。
项目地址:https://github.com/qwenlm/qwen-audio
尽管大规模语言模型在通用人工智能方面表现出色,但它们缺乏对音频的理解。Qwen-Audio系列的推出填补了这一空白,将预训练扩展到30个任务和多种音频类型。
Qwen-Audio系列的训练方法分为两种:Qwen-Audio采用多任务预训练方法,优化音频编码器同时冻结语言模型权重;相反,Qwen-Audio-Chat采用监督微调,优化语言模型同时固定音频编码器权重。这一训练过程包括多任务预训练和监督微调,使Qwen-Audio-Chat具有多样的人际交互能力,支持从音频和文本输入中的多语言、多轮对话。
Qwen-Audio在各种基准任务上表现出色,明显优于没有特定任务微调的对照组。它在AAC、SWRT ASC、SER、AQA、VSC和MNA等任务上始终超越基线,同时在CochlScene、ClothoAQA和VocalSound上取得了最先进的结果,展示了其在挑战性音频任务中的有效性和能力。
Qwen-Audio系列未来的探索方向包括扩展不同音频类型、语言和特定任务的能力。通过优化多任务框架或探索替代的知识共享方法,可以解决协同训练中的干扰问题。
研究人员还计划通过不断更新基于新基准、数据集和用户反馈的内容,提高通用音频理解水平。Qwen-Audio-Chat将进一步优化以符合人类意图,支持多语言互动,并实现动态多轮对话。
这届打工人,将被AI支配还是解放?
AI大模型能力的不断跃迁,让协同办公市场掀起了新一轮竞赛。4月18日,在钉钉2023春季钉峰会上,钉钉总裁叶军宣布钉钉正式接入通义千问大模型,目前与大模型融合场景正在测试中,新钉钉将全面智能化,未来一年所有场景都将进行智能化布局。活动现场,钉钉还发布了斜杠“/”功能,演示接入通义千问大模型后,通过输入“/”在钉钉唤起的多项AI能力。站长网2023-04-23 12:03:550000六部门:推动算力结构多元配置 到 2025 年算力规模超过 300 EFLOPS
工信部等六部门近日联合印发《算力基础设施高质量发展行动计划》,提出到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展。《行动计划》其中提出,推动算力结构多元配置。结合人工智能产业发展和业务需求,重点在西部算力枢纽及人工智能发展基础较好地区集约化开展智算中心建设,逐步合理提升智能算力占比。站长网2023-10-09 15:18:400000AI提升生产效率后,下一步是改变生产关系?
包括AIGC在内的技术成为下阶段游戏行业发展的核心动力之一已经是无需多谈的共识。我们之前提到,如果说利用AI工具提升生产效率是1.0阶段(量),那么腾讯网易作为行业头部,已经一只脚迈进了更复杂的内容多样化相关,无论是NPC的行为设定还是动作智能化的应用,这些都是质的2.0阶段,技术的更高级应用直接与内容竞争力挂钩。这是站在游戏生产角度进行的阶段划分。0000面壁智能联合清华发布大模型智能体GitAgent
面壁智能联合清华大学自然语言处理实验室发布了GitAgent,这是一种可以自主扩展工具箱的大模型智能体应用框架。通过GitAgent,大模型智能体可以从GitHub上扩展工具集合,以应对复杂任务需求。站长网2024-01-15 11:42:550000小米最强折叠屏!MIX Fold 4入网:支持卫星通信、5.5G
快科技6月7日消息,近日,小米全新一代折叠屏旗舰MIXFold4已经入网,认证显示支持天通卫星通信。此外该机还将支持5.5G网络,这是5G向6G发展的演进技术,比5G网络性能更出色,理论峰值达到10Gbps。据此前消息,MIXFold4预计会在7-8月份登场,核心搭载高通骁龙8Gen3移动平台。站长网2024-06-09 00:30:200000