流媒体语音转换新突破!“StreamVoice”成功实现实时转换,仅需124毫秒延迟!
**划重点:**
1. 🚀 StreamVoice是一种新颖的流媒体语言模型(LM)-based零射击语音转换(VC)方法,实现实时转换,并具有较高的转换速度。
2. 🌐 该模型通过采用完全因果关联的上下文感知LM和临时独立的声学预测器,实现了流媒体能力。
3. ⚙️ 为了解决不完整上下文可能导致的性能降级问题,StreamVoice采用了教师引导的上下文预测和语义屏蔽策略。
最近,一支来自中国西北工业大学和字节跳动的研究团队推出了一项名为StreamVoice的创新技术,该技术基于语言模型,专为流媒体场景设计,实现零射击语音转换(VC)。
传统的VC模型通常使用从源语义到声学特征的离线转换,需要完整的源语音,限制了它们在实时场景中的应用。而StreamVoice通过采用全因果上下文感知的LM和临时独立的声学预测器,实现了流媒体能力。该模型在每个自回归时间步骤交替处理语义和声学特征,消除了对完整源语音的需求。

为了解决由于不完整上下文导致的流媒体处理中的性能降级问题,StreamVoice采用了两种策略:
1. 教师引导的上下文预测:在训练期间,教师模型总结当前和未来语义上下文,引导模型对缺失上下文进行预测。
2. 语义屏蔽策略:** 通过从前面损坏的语义和声学输入中促进声学预测,增强上下文学习能力。
值得注意的是,StreamVoice是首个LM-based的流媒体零射击VC模型,没有任何未来先行查看。实验结果展示了StreamVoice在保持与非流媒体VC系统相当的零射击性能的同时,具有流媒体转换能力。
研究团队的未来工作计划包括使用更多训练数据以提高StreamVoice的建模能力,并计划优化流媒体管道,引入高保真度编解码器和低比特率以及统一的流媒体模型。整个StreamVoice管道在单个A100GPU上的转换过程仅需要124毫秒延迟,即使没有工程优化,也比实时速度快2.4倍。
对于该项研究的所有功劳归功于西北工业大学和字节跳动的研究人员。该团队的未来工作计划还包括进一步改进StreamVoice的建模能力,以及优化流媒体管道。如果读者对这项工作感兴趣,可以查看原始论文获取更多详细信息。
论文:https://arxiv.org/abs/2401.11053
入选淘宝“年度商品”!00后小伙年销7万单爱因斯坦的脑子
临近年底,淘宝启动了2023年度十大商品评选,其中一款引人注目的虚拟商品“爱因斯坦的脑子”成功入选。据报道,这位在淘宝上出售“爱因斯坦的脑子”的卖家是一位来自河北的00后小伙。这款商品在一年内竟然卖出了7万单,吸引了大量高中和高校学生的关注。0000阿里推新项目MotionShop 可将视频中的角色替换为3D
阿里巴巴推出了名为MotionShop的新项目,这一项目可以将视频中的角色替换为3D化身。MotionShop利用先进的视频处理和3D渲染技术,能够高效地将视频中的某个角色替换为3D人物,同时不改变视频中的其他场景和人物。被替换的3D人物能够完整复刻原视频中人物的动作,保持动作一致。项目地址:https://aigc3d.github.io/motionshop/站长网2024-01-17 11:19:010002每周AI大事件|安卓版ChatGPT上线、OpenAI关闭AI检测器、B站推大模型
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]网易有道发布“子曰”大模型可为学生提供个性化分析指导网易有道正式发布垂直教育行业的大模型“子曰”。有道表示,在内部调研中,子曰大模型的翻译能力已经优于ChatGPT、超过了市面上所有主流翻译引擎。天猫精灵宣布“精灵大模型”升级站长网2023-07-28 09:52:460002与 AI 聊天机器人交谈的可怕之处:ChatGPT 可以从匿名文本中准确「推断」个人详细信息
站长网2023-10-18 21:24:290000“俄版 ChatGPT”YandexGPT 2 参加俄罗斯大学统考,单科成绩接近平均分
据今日俄罗斯和RGRU等媒体的报道,俄罗斯的聊天机器人YandexGPT2已成功参加了俄罗斯国家统一考试,并在文学科目中取得了令人瞩目的成绩。YandexGPT2的加权分数为55分,接近2022年俄罗斯考生的平均成绩(63分),远高于当地大学的最低合格要求(40分)。这一成就引起了广泛的关注。站长网2023-10-16 11:45:140000