流媒体语音转换新突破!“StreamVoice”成功实现实时转换,仅需124毫秒延迟!
**划重点:**
1. 🚀 StreamVoice是一种新颖的流媒体语言模型(LM)-based零射击语音转换(VC)方法,实现实时转换,并具有较高的转换速度。
2. 🌐 该模型通过采用完全因果关联的上下文感知LM和临时独立的声学预测器,实现了流媒体能力。
3. ⚙️ 为了解决不完整上下文可能导致的性能降级问题,StreamVoice采用了教师引导的上下文预测和语义屏蔽策略。
最近,一支来自中国西北工业大学和字节跳动的研究团队推出了一项名为StreamVoice的创新技术,该技术基于语言模型,专为流媒体场景设计,实现零射击语音转换(VC)。
传统的VC模型通常使用从源语义到声学特征的离线转换,需要完整的源语音,限制了它们在实时场景中的应用。而StreamVoice通过采用全因果上下文感知的LM和临时独立的声学预测器,实现了流媒体能力。该模型在每个自回归时间步骤交替处理语义和声学特征,消除了对完整源语音的需求。
为了解决由于不完整上下文导致的流媒体处理中的性能降级问题,StreamVoice采用了两种策略:
1. 教师引导的上下文预测:在训练期间,教师模型总结当前和未来语义上下文,引导模型对缺失上下文进行预测。
2. 语义屏蔽策略:** 通过从前面损坏的语义和声学输入中促进声学预测,增强上下文学习能力。
值得注意的是,StreamVoice是首个LM-based的流媒体零射击VC模型,没有任何未来先行查看。实验结果展示了StreamVoice在保持与非流媒体VC系统相当的零射击性能的同时,具有流媒体转换能力。
研究团队的未来工作计划包括使用更多训练数据以提高StreamVoice的建模能力,并计划优化流媒体管道,引入高保真度编解码器和低比特率以及统一的流媒体模型。整个StreamVoice管道在单个A100GPU上的转换过程仅需要124毫秒延迟,即使没有工程优化,也比实时速度快2.4倍。
对于该项研究的所有功劳归功于西北工业大学和字节跳动的研究人员。该团队的未来工作计划还包括进一步改进StreamVoice的建模能力,以及优化流媒体管道。如果读者对这项工作感兴趣,可以查看原始论文获取更多详细信息。
论文:https://arxiv.org/abs/2401.11053
阿里影业回应《孤注一掷》侵权指控:我们相信法律的公正
今日,阿里影业就电影《孤注一掷》涉嫌侵权一事发布了声明,回应了相关指控。阿里影业表示,涉事公司宁波空谷幽水影业有限公司的指控严重不符合事实,同时强调宁波空谷幽水影业与阿里影业在其他项目上的合作与《孤注一掷》无关。阿里影业已于8月9日委托律师事务所向宁波空谷幽水影业发出了律师函。站长网2023-08-19 13:07:060000网文市场的下一个重磅玩家,是知乎?
初夏的北京坊街区,一颗月亮落在路上。仔细看,它的一面是警示语“不要抬头看月亮”,另一面则写着温柔的语句:“夜色好美,看看窗外吧。”在“520”的晚风中,这颗星星亮起暖白的灯,剔透月光映出大片浪漫的环形山,引得许多京城年轻人前来打卡驻足。事实上,这是知乎于北京坊策划的一场线下活动——“600秒长街”。从5月18日起,知乎以一系列创意互动装置布置街区,活动主题为“给我十分钟,为你讲个故事”。站长网2023-05-23 08:59:420001研究发现,信仰上帝的人更容易接受人工智能的建议
一项由纳扎尔巴耶夫大学和杜克大学进行的联合研究发现,相信上帝的人更愿意相信人工智能(AI)的建议,而不是人类的建议。具体来说,研究人员探讨了“上帝”在决策中的显着性作用,以及思考上帝是否会让人们更愿意或更不可能信任人工智能系统而不是人类专家。”站长网2023-08-21 22:16:460001AI实时对话系统WhisperFusion:集成大模型,与AI无缝语音对话
**划重点:**1.🎙️实时语音转文本:利用OpenAIWhisperLive实现即时将口语转换为文本。2.🧠大型语言模型整合:集成Mistral大型语言模型,提升对转录文本的理解和上下文把握。3.⚙️TensorRT优化:LLM和Whisper均经过TensorRT引擎优化,确保高性能和低延迟处理。站长网2024-01-31 14:04:450003苹果已收购Darwin AI 官方回应:常规投资行为
苹果公司今年早些时候在AI领域再下一城,成功收购了DarwinAI公司,进一步增强了其在人工智能领域的实力。DarwinAI是一家总部位于加拿大安大略省Waterloo的初创公司,自2017年成立以来,一直专注于两大核心技术的研发:一是利用AI技术检查制造过程中的零部件,二是通过机器学习构建更小、更高效的AI系统。站长网2024-03-15 08:41:450000