登陆注册

字节与浙大联合推多模态大语言模型Vista

  • 字节与浙大联合推多模态大语言模型Vista-LLaMA 可解读视频内容

    **划重点:**-💡Vista-LLaMA是一种专为视频内容理解而设计的多模态大语言模型,能够输出高质量视频描述。-🔬通过创新的视觉与语言token处理方式,Vista-LLaMA解决了在视频内容中出现“幻觉”现象的问题。-🚀改良的注意力机制和序列化视觉投影器提高了模型对视频内容的深度理解和时序逻辑把握。
    站长网2024-01-08 17:26:08
    0008