比OpenAI的Whisper快50%,最新开源语音模型
生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa,推理效率比OpenAI开源的Whisper快50%。
aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法,允许模型在每个推理步骤中预测多个token,同时不会损失性能和识别准确率。
开源地址:https://github.com/aiola-lab/whisper-medusa
huggingface:https://huggingface.co/aiola/whisper-medusa-v1
传统的Transformer架构在生成序列时,是遵循逐个token的顺序预测过程。这意味着在生成新序列时,模型每次只能预测下一个token,然后将这个预测的token加入到序列中,再基于更新后的序列预测下一个token。
这虽然能够确保生成序列的连贯性和上下文相关性,但也有一个非常明显的缺陷——极大限制了模型的推理效率。
此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖关系,可能会忽略一些重要的全局信息,从而影响模型的整体性能和准确性。
而Whisper-Medusa使用了10头的多注意力机制, 能各自独立地计算注意力分布并行地处理输入,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。
随后向量被送入全连接层进行进一步的处理,以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。
为了使多头注意力机制在Whisper-Medusa模型中更高效地运行,aiOla采用了弱监督的方法,在训练过程中冻结了原Whisper模型的主要组件,使用该模型生成的音频转录作为伪标签来训练额外的token预测模块。
使得模型即便没有大量手动人工标注数据的情况下,依然能够学习到有效的语音识别模式。
此外在训练过程中,Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面,模型需要确保预测的token序列与实际转录尽可能一致;
另一方面,通过多头注意力机制的并行预测,模型被鼓励在保证精度的前提下,尽可能地加快预测效率。
aiOla使用了学习率调度、梯度裁剪、正则化等多种方法,确保模型在训练过程中能够稳定收敛,同时避免过拟合性。
业务场景方面, Whisper-Medusa能理解100多种语言,用户可以开发音频转录、识别等多种应用,适用于翻译、金融、旅游、物流、仓储等行业。
aiOla表示,未来会将Whisper-Medusa的多注意力机制扩展至20个头,其推理效率将再次获得大幅度提升。
小红书电商30个品牌榜单,透露出哪些信号?
11月7日,小红书发布30个新赛道突破品牌,品类包含服饰、运动户外、美妆、家居家电、美食健康、母婴和文玩手工艺。榜单30个品牌中,服饰有12个,美妆有6个,足以凸显美妆和服饰重要位置。在评选的维度上,小红书电商综合站内成交增长、经营方法和品牌建设3个维度来评选。成交增长:单月GMV环比增长速度;经营方法:小红书电商市场的切合度。站长网2023-11-09 18:17:440000调查:72%企业领导者计划在未来三年内采用生成式AI
一项由IT解决方案整合商InsightEnterprises和调研公司TheHarrisPoll进行的最新研究揭示了企业对生成式人工智能(generativeAI)日益普及的采用情况,并揭示了人们对其实施的担忧。站长网2023-07-06 16:33:430002腾讯机器人研究登顶刊 能像真人一样丝滑操作
要点:腾讯RoboticsX实验室研发的通用双臂协同灵巧操作框架已发表在《IEEETransactionsonRobotics》上,具备丝滑操作、高抗干扰能力和人类协同的特性。该框架解决了通用双臂系统面临的视觉感知、动态协同和人机技能迁移等问题,通过学习和优化两个关联子框架实现了双臂操作的安全和灵活度。站长网2024-03-26 16:56:110000百度智能云千帆大模型平台适配开源大模型Falcon-180B
百度智能云千帆大模型平台宣布,率先适配了开源大模型Falcon-180B,并提供了全流程工具链和开发环境,方便企业和开发者体验和应用这一最新的大模型能力。据介绍,百度智能云千帆平台已纳管了42个国内外主流大模型,对第三方模型进行了性能增强、安全增强、中文增强和上下文增强。平台提供模型安全、内容安全和数据安全多重保障。工具链贯穿大模型生命周期,提供可视化工具、高质量数据集和强大算力支持。站长网2023-09-08 14:09:570000