阿里巴巴推大规模音频语言模型Qwen-Audio
要点:
阿里巴巴研究团队推出了Qwen-Audio系列,这是一组具有通用音频理解能力的大规模音频语言模型。
Qwen-Audio通过采用层次标签的多任务框架,成功应对了多样化任务的挑战,并在基准任务上取得了令人印象深刻的性能,无需特定任务的微调。
Qwen-Audio-Chat是在Qwen-Audio基础上构建的,支持多轮对话和各种音频中心场景,展示了其通用音频理解能力。
阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架,成功解决了有限的预训练音频模型面临的多样化任务的挑战。
相比之前专注于语音的工作,Qwen-Audio不仅包含人类语音,还涵盖了自然声音、音乐和歌曲,实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色,而无需进行特定任务的修改。
Qwen-Audio的多任务框架有助于减轻干扰,实现了在基准任务上的显著性能。Qwen-Audio-Chat作为扩展,不仅支持多轮对话,还适用于各种音频中心场景,展示了在大规模音频语言模型中全面的音频交互能力。

项目地址:https://github.com/qwenlm/qwen-audio
尽管大规模语言模型在通用人工智能方面表现出色,但它们缺乏对音频的理解。Qwen-Audio系列的推出填补了这一空白,将预训练扩展到30个任务和多种音频类型。
Qwen-Audio系列的训练方法分为两种:Qwen-Audio采用多任务预训练方法,优化音频编码器同时冻结语言模型权重;相反,Qwen-Audio-Chat采用监督微调,优化语言模型同时固定音频编码器权重。这一训练过程包括多任务预训练和监督微调,使Qwen-Audio-Chat具有多样的人际交互能力,支持从音频和文本输入中的多语言、多轮对话。
Qwen-Audio在各种基准任务上表现出色,明显优于没有特定任务微调的对照组。它在AAC、SWRT ASC、SER、AQA、VSC和MNA等任务上始终超越基线,同时在CochlScene、ClothoAQA和VocalSound上取得了最先进的结果,展示了其在挑战性音频任务中的有效性和能力。
Qwen-Audio系列未来的探索方向包括扩展不同音频类型、语言和特定任务的能力。通过优化多任务框架或探索替代的知识共享方法,可以解决协同训练中的干扰问题。
研究人员还计划通过不断更新基于新基准、数据集和用户反馈的内容,提高通用音频理解水平。Qwen-Audio-Chat将进一步优化以符合人类意图,支持多语言互动,并实现动态多轮对话。
Perplexica:开源AI驱动的问答搜索引擎
Perplexica是一个开源的AI驱动搜索引擎,提供多种搜索模式,旨在为用户提供更精准、更智能的搜索体验。它受到PerplexityAI的启发,不仅能够搜索网络,还能理解并回答用户的问题。Perplexica的核心功能包括:本地大型语言模型(LLMs)支持:支持使用本地部署的大型语言模型,如Llama3和Mixtral,通过Ollama进行操作。多种搜索模式:站长网2024-04-28 20:50:050004OpenAI新模型研发遇挫,稀疏性是大模型降本的钥匙吗?
大模型的训练与运行成本极其高昂,OpenAI也尝试过降低成本,只可惜失败了。去年年底,当ChatGPT引起全球轰动时,OpenAI的工程师开始研究一种新的人工智能模型,代号为Arrakis。Arrakis旨在让OpenAI能够以更低的成本运行聊天机器人。但据知情人士透露:2023年年中,OpenAI已经取消了Arrakis的发布,因为该模型的运行效率没有公司预期的那么高。站长网2023-10-19 17:52:130000AI生成儿童性虐待图像或网络泛滥,英国监管机构敦促采取行动
#划重点1.🌐互联网上已存在的儿童性虐待图像问题可能进一步恶化,监管机构敦促对生成深度伪造照片的人工智能工具进行控制。2.🤖以英国为基地的互联网观察基金(IWF)在一份报告中敦促政府和技术提供商在人工智能生成的儿童性虐待图像泛滥之前迅速采取行动。3.📉报告揭示了生成式人工智能系统的黑暗面,可能导致调查人员被深度伪造的虚拟儿童拖慢,甚至扩大潜在受害者的范围。0000阿里:魔搭社区拥有超200万开发者 模型下载量超4500万
据科创板日报报道,阿里巴巴副总裁叶杰平表示,魔搭社区已经聚集了1000多款AI模型和200多万AI开发者。模型累计下载超过4500万次,并与清华、北大、浙大等20多所高校展开了学术合作,有50万开发者来自高校。站长网2023-07-31 11:19:580000理论物理学家称聊天机器人造福社会并提高生产力
据CNN报道,理论物理学家米奇奥·卡库认为,公众对新的人工智能技术的焦虑是没有道理的。在周日与CNN的法里德·扎卡里亚的采访中,这位未来学家说,像OpenAI的ChatGPT这样的聊天机器人将有利于社会和提高生产力。但是恐惧使人们主要关注这些程序的负面影响,他称之为“华而不实的录音机”。站长网2023-08-14 11:35:450001