字节大模型BuboGPT已开源 demo可玩
站长网2023-08-19 13:07:076阅
字节推出了一种新的大模型,名为 BuboGPT,BuboGPT 是一种先进的大型语言模型(LLM),能够将文本、图像和音频等多模态输入进行整合,并具有将回复与视觉对象进行对接的独特能力。它展示了在对齐或未对齐的任意图像音频数据理解方面的出色对话能力。
项目地址:https://bubo-gpt.github.io/
通过文字描述、图像定位和声音定位,BuboGPT 可以准确判断声音来源,即使音频和图像之间没有直接关系,也可以合理描述两者之间的可能关系。
研究人员表示,相比其他多模态大模型,BuboGPT 利用文本与其他模态之间的丰富信息和明确对应关系,提供了对视觉对象及给定模态的细粒度理解。
为了实现多模态理解,BuboGPT 使用了一个共享的语义空间,并构建了一个视觉定位 pipeline,其中包括标记模块、定位模块和实体匹配模块。
通过语言作为桥梁,BuboGPT 能够将视觉对象与其他模态连接起来。研究人员还展示了 BuboGPT 在图像描述、声音来源识别等方面的能力,并开源了代码和数据集,发布了可玩的 demo。
https://huggingface.co/spaces/magicr/BuboGPT(demo)
核心功能:
- 多模态理解: BuboGPT 实现了文本、视觉和音频的联合多模态理解和对话功能。
- 视觉对接: BuboGPT 能够将文本与图像中的特定部分进行准确关联,实现细粒度的视觉对接。
- 音频理解: BuboGPT 能够准确描述音频片段中的各个声音部分,即使对人类来说一些音频片段过于短暂难以察觉。
- 对齐和非对齐理解: BuboGPT 能够处理匹配的音频 - 图像对,实现完美的对齐理解,并能对任意音频 - 图像对进行高质量的响应。
0006
评论列表
共(0)条相关推荐
Kuli Kuli:基于AI的技术的菜单翻译软件
KuliKuli是一款由即刻APP团队开发的菜单翻译软件,它以简洁的用户界面为特点。用户可以通过授权相机功能,拍摄菜单照片,并选择需要翻译的目标语言,利用基于AI的技术进行菜单翻译。该软件具有以下特点:1.界面简洁,初始界面只包括拍照或选择照片的选项。2.除相机和相册权限外,不需要其他系统授权,并在AppStore的隐私政策中标记为“未收集任何数据”。站长网2023-09-22 11:36:08000116万抖音网友围观AI谈恋爱 ChatGPT语音功能被网友玩坏了
ChatGPT语音功能被网友玩坏了!最近,抖音博主“新竹AI”让两个手机上的ChatGPT互相亲密交流,这场AI之间的恋爱对话被超16万网友围观。这段对话开始于男生AI的邀请,他提议一次浪漫的约会,包括前往酒吧放松、海边漫步欣赏海浪声音,以及在有情调的餐厅享受晚餐。他表达了愿意满足女生AI的喜好的决心。站长网2023-10-31 14:22:300000国产自研大模型加快落地,新一轮搜索入口战打响?
在这个以效率为先的时代,AI的广泛应用自然而然,而若谈及受到影响最大的行业,搜索领域必定是其中之一。目前,抖音、B站、淘宝等互联网平台均推出了自家的AI搜索产品,而垂直搜索领域的玩家也在新兴技术趋势下找到了更大的革新动力。站长网2024-01-27 08:10:410000ChatGPT等人工智能是否会自我觉醒?科学家设计出了检测方法
近日,CLAREWATSON的一篇关于如何判断ChatGPT是否有自我意识的文章刊登在sciencealert.com并引发关注。文章探讨了一个极为吸引人的思考题:我们该如何判断ChatGPT等大规模语言模型是否会逐渐获得自我意识。以下为文章的三个核心要点:站长网2023-09-11 11:10:400000好消息!Stable Diffusion 3允许商业化,很快开源更大版本模型
7月6日凌晨,著名开源大模型平台StabilityAI修改了社区许可协议,最新发布的文生图模型StableDiffusion3Medium允许商业化(以下简称“SD3-M”)。如果企业、个人开发者每年收入低于100万美元(大约726万元人民币),只需向StabilityAI填写一份申请,就可以免费将SD3-M用于商业化,包括数据微调、开发生成式AI应用等。站长网2024-07-07 00:39:460000