登陆注册

已开源

  • 字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩

    字节大模型,BuboGPT来了。支持文本、图像、音频三种模态,做到细粒度的多模态联合理解。答哪指哪,什么讲了什么没讲,一目了然:除了有“慧眼”,还有“聪耳”。人类都注意不到的细节BuboGPT能听到:Audio-1-chime-bird-breeze,量子位,20秒前方高能!三模态联合理解,文字描述图像定位声音定位,一键搞定,准确判断声音来源:
    站长网2023-08-15 20:27:17
    0001
  • 一句话精准视频片段定位!清华新方法拿下SOTA|已开源

    只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大笑”这种语义难理解型的,也能准确定位:方法名为自适应双分支促进网络(ADPN),由清华大学研究团队提出。
    站长网站长资讯2024-01-06 16:34:16
    0000