阿里通义实验室开源多模态说话人项目3D-Speaker
站长网2024-02-27 17:53:322阅
3D-Speaker 是通义实验室语音团队贡献的一个开源项目,结合了声学、语义、视觉三维模态信息来解决说话人任务。
项目涵盖了说话人日志、说话人识别和语种识别任务,提供了工业级模型、训练代码和推理代码。同时还开源了研究数据集3D-Speaker dataset,包含了多设备、多距离和多方言的音频数据和文本,适用于高挑战性的语音研究。

1. 结合视觉信息的说话人日志技术:
- 在复杂声学环境中,引入视觉信息可以提升说话人识别能力。
- 系统包括声学和视觉模态识别路线,通过联合多模态聚类得到最终识别结果。
2. 结合语义信息的说话人日志技术:
- 将说话人日志任务从传统的音频切割转为对文本内容进行说话人区分。
- 提出了对话预测和说话人转换预测模块,基于 Bert 模型,用于提取语义中说话人信息。
3. 基于经典声学信息的说话人和语种识别:
- 包含全监督和自监督说话人识别模型,支持多种数据增强、多模型训练和多损失函数。
- 提供一键式训练推理,支持多种经典模型,并提供有效的学习率调节方案和 margin 变换值。
3D-Speaker 项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。
开源代码链接:
https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh
0002
评论列表
共(0)条相关推荐
谷歌Gemini对OpenAI贴脸开大!文生视频模型Veo硬刚Sora
谷歌近日发布了一系列强大的AI工具,展开了一场针对OpenAI的激烈竞争。这一波强势反击包括了ProjectAstra、Veo视频模型以及Gemini1.5Pro等一连串武器,旨在彻底颠覆谷歌搜索,并对OpenAI展开全面挑战。站长网2024-05-15 10:11:090000游戏行业里程碑:吵了十几年的「玩法抄袭」,终于要得出结论了?
如果要说什么游戏讨论话题经久不衰,那「知识产权」势必得占上一个。哪怕大家已经就此争论了十几年,只要抛出相关话题还是能吵上一天。这也不难理解,毕竟游戏抄袭在法律层面向来难以界定,尤其是玩法规则的部分。此前的游戏侵权案件,通常是将游戏拆分成计算机软件、文字作品、美术作品等九类作品,以核心代码、美术资源、文字内容是否构成实质性相似为判断标准,而游戏玩法往往不做保护。站长网2023-05-27 14:55:070000DreamLLM:文字与图像同步创作的开源工具
DreamLLM是一款强大的多模态大型语言模型(LLM)学习框架,它首次实现了多模态理解和创作之间常常被忽视的协同效应。DreamLLM基于两个基本原则运作。首先,它侧重于在原始多模态空间中直接采样,生成语言和图像后验的生成模型。这一方法规避了外部特征提取器如CLIP所固有的限制和信息损失,实现了更全面的多模态理解。项目地址:https://dreamllm.github.io/站长网2023-09-25 17:35:130000英伟达人工智能概念驱动股价飙升 市盈率是特斯拉的三倍
站长之家(ChinaZ.com)8月14日消息:在去年科技股市场暴跌后,所有科技行业的知名公司都在2023年实现了反弹。但有一家公司远远胜过其他所有公司,那就是英伟达。站长网2023-08-14 09:07:220001Google AI 推出 MediaPipe Diffusion 插件:可在设备上实现可控的文本到图像生成
Diffusion模型近年来在文本到图像生成方面得到广泛应用,并取得了显著的成功,从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而,在难以用文字明确定义的条件下,有效的生成管理仍然是一个挑战。站长网2023-07-04 00:16:110002