登陆注册

音乐等基本音频

  • 音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频

    **划重点:**1.🤖SALMONN是一个单一的音频-文本多模型大型语言模型框架,旨在使大型语言模型能够直接理解和处理包括语音、音频事件和音乐在内的通用音频输入。2.🎙️该框架通过使用两个听觉编码器(非语音BEATs音频编码器和源自OpenAIWhisper框架的语音编码器)以及窗口级Q-Former等组件,实现了高水平的时间分辨率,用于音频-文本对齐。
    站长网2023-11-29 11:17:13
    0000