阿里通义实验室开源多模态说话人项目3D-Speaker
站长网2024-02-27 17:53:320阅
3D-Speaker 是通义实验室语音团队贡献的一个开源项目,结合了声学、语义、视觉三维模态信息来解决说话人任务。
项目涵盖了说话人日志、说话人识别和语种识别任务,提供了工业级模型、训练代码和推理代码。同时还开源了研究数据集3D-Speaker dataset,包含了多设备、多距离和多方言的音频数据和文本,适用于高挑战性的语音研究。
1. 结合视觉信息的说话人日志技术:
- 在复杂声学环境中,引入视觉信息可以提升说话人识别能力。
- 系统包括声学和视觉模态识别路线,通过联合多模态聚类得到最终识别结果。
2. 结合语义信息的说话人日志技术:
- 将说话人日志任务从传统的音频切割转为对文本内容进行说话人区分。
- 提出了对话预测和说话人转换预测模块,基于 Bert 模型,用于提取语义中说话人信息。
3. 基于经典声学信息的说话人和语种识别:
- 包含全监督和自监督说话人识别模型,支持多种数据增强、多模型训练和多损失函数。
- 提供一键式训练推理,支持多种经典模型,并提供有效的学习率调节方案和 margin 变换值。
3D-Speaker 项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。
开源代码链接:
https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh
0000
评论列表
共(0)条相关推荐
科大讯飞刘庆峰:明年上半年对标GPT4
2023亚布力中国企业家论坛第十九届夏季高峰会于8月25日至27日在深圳举行,科大讯飞创始人、董事长刘庆峰出席相关论坛。刘庆峰还表示,今年科大讯飞定了一个目标,到今年10月24号,科大讯飞将发布通用大模型,全面对标ChatGPT,且要实现中文全面超越,英文跟它相当。“坦白讲,今天我们跟它还有差距,但是我们很清楚,10月份就能赶上,明年上半年就对标GPT4。”站长网2023-08-26 17:26:180000SK 电讯推出利用人工智能技术降低云成本的 Cloud Radar 2.0
站长之家(ChinaZ.com)10月18日消息:SK电讯周三宣布,推出CloudRadar2.0,这是一款利用人工智能技术的云管理平台,旨在帮助企业降低其云计算服务成本。站长网2023-10-18 22:32:520000AiDA等AI服装设计工具在时尚设计中的崭露头角,但无法替代设计师的创造力
文章概要:1.时尚创新者CalvinWong开发了首个设计师主导的AI系统,名为"时尚交互设计助手(InteractiveDesignAssistantforFashion,简称AiDA)",加速设计从草图到T台的过程。2.AiDA能够识别设计元素,为设计师提供更多提炼和修改原始设计的建议,但强调AI是为了促进设计师的创作灵感,而非取代他们的创造力。站长网2023-09-18 11:58:490001百万中小商家掀起“入淘潮” ,电商圈发生了什么?
618收官。今年,各大平台都不再公布大促GMV数据,这似乎已经成了行业共识。但GMV之外的618更值得关注。数据显示,截至6月18日,淘宝有超256万名中小商家今年618成交额超过去年同期,118万名淘系中小商家达成了“1万元成交”的突破,其中6.8万名商家加入淘宝还不到3个月。站长网2023-06-29 23:46:270001AI爆款设备Rabbit R1将接收Perplexity AI的实时信息
划重点:-🐰Rabbit与Perplexity达成合作伙伴关系,将把“对话式AI动力回答引擎”与R1连接起来。-📱R1已经售出超过5万份预订。-💡Perplexity的AI引擎将提供“实时更新答案”的功能,与过去某个时间点的数据相比,不会有任何知识限制。站长网2024-01-19 14:20:040000