登陆注册

具备多模态信息理解能力

  • 阿里云开源通义千问视觉语言模型Qwen-VL 具备多模态信息理解能力

    阿里云旗下魔搭社区(ModelScope)宣布开源视觉语言模型Qwen-VL。据介绍,Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。相比之前的模型,Qwen-VL新增了视觉定位、图像中文字理解等功能,可以接受图像和多语言文本作为输入,并输出图像或文本。
    站长网2023-08-26 17:01:23
    0000