摩尔线程开源音频理解大模型MooER:38小时训练5000小时数据
快科技8月23日消息,摩尔线程官方宣布,音频理解大模型MooER”(摩耳)已经正式开源,并公布在GitHub上:https://github.com/MooreThreads/MooER
目前开源的内容包括推理代码,以及5000小时数据训练的模型,后续还将开源训练代码,以及基于8万小时数据训练的模型。
摩尔线程希望,能够在语音大模型的方法演进和技术落地方面为社区做出贡献。
MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,依托摩尔线程的夸娥(KUAE)智算平台,并得益于自研的创新算法和高效计算资源的结合,仅用38个小时,就完成了5000小时音频数据和伪标签的训练。
MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力,并在多个语音识别领域的测试集中,展现出了领先或至少持平的优异表现。
MooER的模型结构包括Encoder、Adapter、Decoder(LLM)三个部分。
其中,Encoder对输入的原始音频进行建模,提取特征并获取表征向量。
Encoder的输出会送到Adapter进一步下采样,使得每120ms音频输出一组音频Embedding。
音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下游任务,如语音识别(ASR)、语音翻译(AST)等。
在模型训练阶段,融合了语音模态和文本模态的数据会按以下形式输入到LLM:
摩尔线程使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型,初始化Encoder和LLM模块,并随机初始化Adapter模块。
训练过程中,Encoder始终固定参数,Adapter和LLM会参与训练和梯度更新。
利用自研的夸娥智算平台,摩尔线程使用DeepSpeed框架和Zero2策略,基于BF16精度进行训练和推理。
经实验发现,训练过程中更新LLM参数能够提升最终音频理解任务的效果。
为了提升训练效率,摩尔线程采用了LoRA技术,仅更新2%的LLM参数。具体的模型参数规模如下:
该模型的训练数据MT5K(MT 5000h)由部分开源数据和内部数据构成,内部数据的语音识别标签均是由第三方云服务得到的伪标签。
语音识别的伪标签经过一个文本翻译模型后,得到语音翻译的伪标签,且没有对这些伪标签数据做任何的人工筛选。
具体数据来源和对应的规模如下:
摩尔线程将MooER与多个开源的音频理解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3、SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。
对比结果显示,开源模型MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,效果更优或几乎持平。
特别是在Covost2 zh2en中译英测试集上,MooER的BLEU分数达到了25.2,显著优于其他开源模型,取得了可与工业水平相媲美的效果。
基于内部8万小时数据训练的MooER-80k模型,在上述中文测试集上的CER达到了3.50%,在英文测试集上的WER到达了12.66%。
与此同时,摩尔线程还得到一些有趣的结论,可以为数据资源和计算资源有限的开发者提供一些建议:
▼Encoder的选择。
分别对比无监督(Self-Supervised Learning)训练的W2v-bert 2.0、半监督(Semi-Supervised Learning)训练的Whisper v3、有监督(Supervised Learning)训练的Paraformer。
采用无监督训练得到的Encoder必须参与到训练过程中,否则模型很难收敛。
综合考虑模型效果、参数量以及训练和推理的效率,选择Paraformer作为Encoder。
▼音频建模粒度很关键。
尝试使用240ms、180ms和120ms的粒度进行建模,并发现这一参数对音频与文本的融合效果具有重要影响,同时会影响模型的最终效果和训练的收敛速度。
经过评估,最终选择每120ms输出一个音频Embedding。
▼快速适应到目标垂类。
仅使用了140h~150h的英文数据进行训练,可以在6个不同来源的英文的测试集上取得一定效果。
同时尝试将任务迁移到语音翻译(AST)领域,取得了很好的效果。
相信这个方法同样也适用于小语种、方言或其它低资源的音频理解任务。
▼LLM对音频理解任务的影响。
在模型训练过程中采用LoRA技术对LLM参数进行更新,可以使训练更快收敛,并且最终取得更好的效果。
同时,音频理解任务上的效果也会随着基础LLM效果提升而提升。
更多技术细节,请参考技术文档:
https://arxiv.org/pdf/2408.05101
游族网络投毒案后续:许垚投毒杀人一审被判死刑
据上海一中法院消息,2024年3月22日上午10时,上海市第一中级人民法院对被告人许垚涉及的两项重罪——故意杀人罪和投放危险物质罪,进行了公开宣判。经过审理,法院认定许垚的行为极其恶劣,危害后果特别严重,因此决定执行死刑,剥夺政治权利终身。站长网2024-03-23 00:22:290000仿生机器人平台Faive Hand:机械手可具备更灵活的操作能力
FaiveHand是一款生物仿生的韧带驱动机械手,具备11个可操控的自由度,旨在为灵巧操作研究提供低成本的硬件平台。通过使用滚动接触关节设计,该机械手实现了三维打印、稳定可靠的高自由度手部设计。该产品旨在为许多研究机构提供低成本的硬件平台,加速人型机器人手在实际应用中的应用。特点:站长网2023-08-09 15:14:480000全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型
全球首位AI软件工程师Devin诞生了,它掌握全栈技能,云端部署、底层代码、改bug、训练和微调AI模型都不在话下。最可怕的是,它完全不怕996,老黄的预言是彻底成真了!就在刚刚,世界上第一位AI程序员Devin诞生。一家叫Cognition的10人初创公司,才成立不到2个月,就给了全世界亿点点震撼。刚一放出,Devin就刷爆了全网。站长网2024-03-13 14:09:520000日本畅销第3,付费留存98%,今年第一个出海爆款太反常
没想到今年国产游戏出海开门红来得这么快。前些日子,万达院线游戏在日本市场发行了放置RPG游戏《圣斗士星矢:正义传说》,出乎葡萄君的意料,这款游戏几天时间内就爬到AppStore畅销榜第3位、GooglePlay畅销榜第9位。站长网2024-01-28 10:06:330000对话仁汇网络:每场直播超10万人在线,“木森大舞台”成功的秘诀是什么?
在抖音众多优质的大舞台直播间里,“木森大舞台”一定是有一席之地的。该直播间以头部主播木森和红豆为主导,每场直播都能维持10万流量。去年10月,木森来到了抖音,重启自己的直播事业,并选择了户外才艺大舞台的直播形式。精心装扮的户外舞台,极具地方特色的歌曲表演,很快为木森带来了百万的粉丝。站长网2023-10-13 18:00:040001