阿里通义实验室开源多模态说话人项目3D-Speaker
站长网2024-02-27 17:53:322阅
3D-Speaker 是通义实验室语音团队贡献的一个开源项目,结合了声学、语义、视觉三维模态信息来解决说话人任务。
项目涵盖了说话人日志、说话人识别和语种识别任务,提供了工业级模型、训练代码和推理代码。同时还开源了研究数据集3D-Speaker dataset,包含了多设备、多距离和多方言的音频数据和文本,适用于高挑战性的语音研究。
1. 结合视觉信息的说话人日志技术:
- 在复杂声学环境中,引入视觉信息可以提升说话人识别能力。
- 系统包括声学和视觉模态识别路线,通过联合多模态聚类得到最终识别结果。
2. 结合语义信息的说话人日志技术:
- 将说话人日志任务从传统的音频切割转为对文本内容进行说话人区分。
- 提出了对话预测和说话人转换预测模块,基于 Bert 模型,用于提取语义中说话人信息。
3. 基于经典声学信息的说话人和语种识别:
- 包含全监督和自监督说话人识别模型,支持多种数据增强、多模型训练和多损失函数。
- 提供一键式训练推理,支持多种经典模型,并提供有效的学习率调节方案和 margin 变换值。
3D-Speaker 项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。
开源代码链接:
https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh
0002
评论列表
共(0)条相关推荐
《普通人用AI创作爆款内容指南》
AIGC创作的风潮已经席卷内容领域的各个角落。一边是ChatGPT、Midjourney等明星产品的走红、大量AI创业公司如雨后春笋般涌现,另一边,与AI有关的内容创作也呈现出爆发式增长。需要先说明,这里的AI有关创作,指的是用AI创作爆款内容,或者围绕AI话题创作有趣的内容。站长网2023-07-04 15:58:150000AI的大模型时代 ≠ 只有大模型的AI时代
什么样的技术能经历时间洗礼还历久弥新?答案或许可以归总为一个“三部曲”般的规律——兴起、发展和大规模应用,外加这个过程再一次演进式的迭代。以史为鉴,引领第一次工业革命的是蒸汽机,当它演进成为内燃机并开始普及时,第二次工业革命的颠覆者——电能本身以及与它相关的各种设备正处于初创期,而在电力设备走向微电子的迭代革新时,各种燃油引擎还在持续改良和普及中。站长网2023-09-27 21:06:320000微信支付2023年开出43.4亿张电子票:减少碳排放4.36万吨 你贡献多少
快科技6月5日消息,今天微信官方晒出了微信支付用户2023年低碳成绩单”。其中显示,2023年全年,微信支付用户通过电子开票、扫码点餐、线上缴费、绿色出行等日常行为,共同为地球减少碳排放1881.5万吨。微信称,这相当于种了超过10亿颗树,约等于3600万亩林地洗手的二氧化碳。2023年,微信支付用户共开出了43.4亿张电子发票、电子小票和电子保单。站长网2024-06-05 16:37:480000华为华南首家服务旗舰店开业:智能机器人代替工程师寻找备件
快科技12月3日消息,据华为终端公司”官微消息,日前,华为客户服务中心(广州高志大厦)正式开业,位于广州市天河区黄埔大道120号高志大厦3楼。据介绍,这是华为华南首家服务旗舰店,提供面对面维修、智能备件柜、咖啡吧等全面智能服务体验,最大特色之一是采用全新维修模式。推出了面对面”服务坐席和全透明备件区,消费者可直接与工程师沟通设备情况、面对面观看维修过程。0000联合国将召开会议试图制定AI发展和监管蓝图
本周,联合国正在召开一次全球会议,旨在勾勒出人工智能的边界,并利用其潜力来赋予人类力量。联合国希望为处理人工智能(AI)制定一个明确的蓝图,因为该技术的发展超过了设定其边界的能力。正在日内瓦举行的“AI向善全球峰会”将于周四和周五聚集约3,000名来自微软、亚马逊等公司、大学和国际组织的专家,试图塑造处理AI的框架。站长网2023-07-04 23:04:300000