阿里巴巴推大规模音频语言模型Qwen-Audio
要点:
阿里巴巴研究团队推出了Qwen-Audio系列,这是一组具有通用音频理解能力的大规模音频语言模型。
Qwen-Audio通过采用层次标签的多任务框架,成功应对了多样化任务的挑战,并在基准任务上取得了令人印象深刻的性能,无需特定任务的微调。
Qwen-Audio-Chat是在Qwen-Audio基础上构建的,支持多轮对话和各种音频中心场景,展示了其通用音频理解能力。
阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架,成功解决了有限的预训练音频模型面临的多样化任务的挑战。
相比之前专注于语音的工作,Qwen-Audio不仅包含人类语音,还涵盖了自然声音、音乐和歌曲,实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色,而无需进行特定任务的修改。
Qwen-Audio的多任务框架有助于减轻干扰,实现了在基准任务上的显著性能。Qwen-Audio-Chat作为扩展,不仅支持多轮对话,还适用于各种音频中心场景,展示了在大规模音频语言模型中全面的音频交互能力。
项目地址:https://github.com/qwenlm/qwen-audio
尽管大规模语言模型在通用人工智能方面表现出色,但它们缺乏对音频的理解。Qwen-Audio系列的推出填补了这一空白,将预训练扩展到30个任务和多种音频类型。
Qwen-Audio系列的训练方法分为两种:Qwen-Audio采用多任务预训练方法,优化音频编码器同时冻结语言模型权重;相反,Qwen-Audio-Chat采用监督微调,优化语言模型同时固定音频编码器权重。这一训练过程包括多任务预训练和监督微调,使Qwen-Audio-Chat具有多样的人际交互能力,支持从音频和文本输入中的多语言、多轮对话。
Qwen-Audio在各种基准任务上表现出色,明显优于没有特定任务微调的对照组。它在AAC、SWRT ASC、SER、AQA、VSC和MNA等任务上始终超越基线,同时在CochlScene、ClothoAQA和VocalSound上取得了最先进的结果,展示了其在挑战性音频任务中的有效性和能力。
Qwen-Audio系列未来的探索方向包括扩展不同音频类型、语言和特定任务的能力。通过优化多任务框架或探索替代的知识共享方法,可以解决协同训练中的干扰问题。
研究人员还计划通过不断更新基于新基准、数据集和用户反馈的内容,提高通用音频理解水平。Qwen-Audio-Chat将进一步优化以符合人类意图,支持多语言互动,并实现动态多轮对话。
IDC预测: 到2027年,生成式AI支出将达到1430 亿美元
划重点:📈预测:生成式AI支出将在2027年达到1,430亿美元,增速超过综合AI支出,并较全球IT支出的CAGR高出13倍。🌐企业趋势:全球主要企业纷纷将AI纳入业务计划,加大对生成式AI模型的建设和采用。💼意义深远:IDC表示生成式AI是一项具有深远影响和商业价值的变革性技术。站长网2023-10-18 21:14:530000ChatGPT推出语音和图像多模态功能 预计未来两周内上线
OpenAI宣布将在ChatGPT中推出新的语音和图像(Voiceandimage)功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。站长网2023-09-26 08:15:330000余额宝上线第十年:累计为用户赚了3867亿元收益
6月13日是余额宝上线十周年,这几天,网友掀起了晒余额宝十年累计收益的热潮。余额宝官方公布的数据显示:截至2023年5月1日,余额宝十年间累计为用户赚的收益超3867亿元,相当于每天为国人赚了1亿的零花钱。数据还显示,小额普惠始终是余额宝的一大特点,其三线及以下城市的用户占比一半,人均持仓金额不到7000元。站长网2023-06-13 14:24:240000美图旗下美颜相机推出“AI人像精修”专区 涵盖6大AI人像功能
8月8日,美图公司旗下美颜相机推出“AI人像精修”专区,集合了用户最高频使用的6大AI人像功能:AI去双下巴、AI表情、AI换背景、AI一键美颜、AI头发、AI路人消除。美颜相机方面介绍,首批进入专区的6大AI人像功能,结合了用户日常生活中的痛点,能带来更好的人像拍照体验。站长网2023-08-09 08:12:430000科大讯飞:6月9日将发布星火APP等多个产品级应用
科大讯飞表示,星火大模型5月6日已实现产品级发布,该技术突破带来科大讯飞AI学习机的中英文作文辅导、中英文口语学习,以及讯飞听见一段录音一键成稿、讯飞办公本自动文本摘要等功能体验的显著提升,进一步增强公司产品的竞争力。6月9日还将进一步实现星火APP等多个产品级应用发布;同时,讯飞会继续开放AI能力,联合各行业合作伙伴面向多个行业共建大模型站长网2023-06-05 23:57:160000