登陆注册

北大提出统一的视觉语言大模型Chat

  • 北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人

    要点:北大和中山大学研究者提出的Chat-UniVi是一种统一的视觉语言大模型,能够在统一的视觉表征下同时处理图片和视频任务,且仅需三天训练即可获得130亿参数的通用视觉语言大模型。Chat-UniVi采用动态视觉token来统一表示图片和视频,通过最近邻的密度峰聚类算法获取动态视觉token,多尺度表征提高了模型的性能,使其在图片和视频的各种任务中取得卓越性能。
    站长网2023-11-29 14:42:29
    0003