流媒体语音转换新突破!“StreamVoice”成功实现实时转换,仅需124毫秒延迟!
**划重点:**
1. 🚀 StreamVoice是一种新颖的流媒体语言模型(LM)-based零射击语音转换(VC)方法,实现实时转换,并具有较高的转换速度。
2. 🌐 该模型通过采用完全因果关联的上下文感知LM和临时独立的声学预测器,实现了流媒体能力。
3. ⚙️ 为了解决不完整上下文可能导致的性能降级问题,StreamVoice采用了教师引导的上下文预测和语义屏蔽策略。
最近,一支来自中国西北工业大学和字节跳动的研究团队推出了一项名为StreamVoice的创新技术,该技术基于语言模型,专为流媒体场景设计,实现零射击语音转换(VC)。
传统的VC模型通常使用从源语义到声学特征的离线转换,需要完整的源语音,限制了它们在实时场景中的应用。而StreamVoice通过采用全因果上下文感知的LM和临时独立的声学预测器,实现了流媒体能力。该模型在每个自回归时间步骤交替处理语义和声学特征,消除了对完整源语音的需求。
为了解决由于不完整上下文导致的流媒体处理中的性能降级问题,StreamVoice采用了两种策略:
1. 教师引导的上下文预测:在训练期间,教师模型总结当前和未来语义上下文,引导模型对缺失上下文进行预测。
2. 语义屏蔽策略:** 通过从前面损坏的语义和声学输入中促进声学预测,增强上下文学习能力。
值得注意的是,StreamVoice是首个LM-based的流媒体零射击VC模型,没有任何未来先行查看。实验结果展示了StreamVoice在保持与非流媒体VC系统相当的零射击性能的同时,具有流媒体转换能力。
研究团队的未来工作计划包括使用更多训练数据以提高StreamVoice的建模能力,并计划优化流媒体管道,引入高保真度编解码器和低比特率以及统一的流媒体模型。整个StreamVoice管道在单个A100GPU上的转换过程仅需要124毫秒延迟,即使没有工程优化,也比实时速度快2.4倍。
对于该项研究的所有功劳归功于西北工业大学和字节跳动的研究人员。该团队的未来工作计划还包括进一步改进StreamVoice的建模能力,以及优化流媒体管道。如果读者对这项工作感兴趣,可以查看原始论文获取更多详细信息。
论文:https://arxiv.org/abs/2401.11053
黄仁勋最新访谈:AI不会完全取代人类
快科技4月29日消息,近日,哥伦比亚广播公司公开了主持人比尔惠特克采访英伟达CEO黄仁勋的完整文字实录。在采访中,黄仁勋分享了他对人工智能的见解,他认为人工智能和机器人将能够胜任越来越多的任务,甚至在某些方面做得比人类更加出色。不过黄仁勋明确表示,人工智能并不会完全取代人类,相反,当企业因采用先进技术而变得更高效时,它们的收益也将相应增长,这意味着他们可以雇佣更多的工人。站长网2024-04-29 17:15:0100004600亿元回购股票!阿里巴巴回应史诗级操作:非常认真、严肃
快科技2月7日消息,阿里巴巴今晚发布2024财年第三财季财报:营收2603.5亿元,同比增长5%。与此同时,阿里还宣布将股份回购计划增加250亿美元,股份回购总规模增至650亿美元(约合人民币4676亿元),回购有效期将延长至2027年3月底。要知道,阿里巴巴目前美股总市值也就1955.75亿美元,650亿美元的股份回购,相当于要回购1/3的股票。0000击败全服第一选手、在Twitch上快速累积30万粉丝,AI VTuber“横空出世 ”
Neuro-sama直播画面|图源:YouTube-“我知道的最令人担忧的事实是什么?”-“是‘你们觉得我是真的’的这个事实。”站长网2023-04-20 14:39:2700012亚马逊中国回应关闭应用商店:不会影响其他业务运营
针对将关闭应用商店一事,亚马逊中国回应称,停止亚马逊应用商店服务不会影响任何目前亚马逊在中国的业务运营,中国消费者可以持续通过手机端下载“亚马逊购物”app,亚马逊应用商店的停用对亚马逊购物没有任何影响。昨日,亚马逊表示,自7月17日起,亚马逊中国将不再提供应用商店服务。以下是亚马逊中国声明全文:站长网2023-05-24 10:06:150000QQ测试AI对话功能“AI聊天搭子” 一个人也可以不孤单
据Tech星球报道,腾讯QQ正在内测一项名为“AI聊天搭子”的新功能,这是由QQ联合筑梦岛、混元助手合作的一项AI对话服务。QQ的AI聊天搭子实际上是一个AI角色互动聊天产品,目前包含有陪伴、故事、挑战、MBTI、名人等不同类型的虚拟角色。用户可以选择符合自己类型的虚拟角色,像平常与好友那样进行实时聊天。站长网2024-03-06 15:37:570001