登陆注册

阿里通义实验室开源多模态说话人项目3D

  • 阿里通义实验室开源多模态说话人项目3D-Speaker

    3D-Speaker是通义实验室语音团队贡献的一个开源项目,结合了声学、语义、视觉三维模态信息来解决说话人任务。项目涵盖了说话人日志、说话人识别和语种识别任务,提供了工业级模型、训练代码和推理代码。同时还开源了研究数据集3D-Speakerdataset,包含了多设备、多距离和多方言的音频数据和文本,适用于高挑战性的语音研究。1.结合视觉信息的说话人日志技术:
    站长网2024-02-27 17:53:32
    0001