字节大模型BuboGPT已开源 demo可玩

站长网2023-08-19 13:07:076阅

字节推出了一种新的大模型，名为 BuboGPT，BuboGPT 是一种先进的大型语言模型（LLM），能够将文本、图像和音频等多模态输入进行整合，并具有将回复与视觉对象进行对接的独特能力。它展示了在对齐或未对齐的任意图像音频数据理解方面的出色对话能力。

项目地址:https://bubo-gpt.github.io/

通过文字描述、图像定位和声音定位，BuboGPT 可以准确判断声音来源，即使音频和图像之间没有直接关系，也可以合理描述两者之间的可能关系。

研究人员表示，相比其他多模态大模型，BuboGPT 利用文本与其他模态之间的丰富信息和明确对应关系，提供了对视觉对象及给定模态的细粒度理解。

为了实现多模态理解，BuboGPT 使用了一个共享的语义空间，并构建了一个视觉定位 pipeline，其中包括标记模块、定位模块和实体匹配模块。

通过语言作为桥梁，BuboGPT 能够将视觉对象与其他模态连接起来。研究人员还展示了 BuboGPT 在图像描述、声音来源识别等方面的能力，并开源了代码和数据集，发布了可玩的 demo。

https://huggingface.co/spaces/magicr/BuboGPT（demo）

核心功能:

- 多模态理解: BuboGPT 实现了文本、视觉和音频的联合多模态理解和对话功能。

- 视觉对接: BuboGPT 能够将文本与图像中的特定部分进行准确关联，实现细粒度的视觉对接。

- 音频理解: BuboGPT 能够准确描述音频片段中的各个声音部分，即使对人类来说一些音频片段过于短暂难以察觉。

- 对齐和非对齐理解: BuboGPT 能够处理匹配的音频 - 图像对，实现完美的对齐理解，并能对任意音频 - 图像对进行高质量的响应。

字节大模型BuboGPT已开源demo可玩

0006

评论列表

共(0)条

相关推荐

iPhone国人不爱了！苹果公布新财报：大中华区营收继续下滑库克回应
快科技5月3日消息，苹果发布财报，第二财季总净营收为907.53亿美元，与去年同期的948.36亿美元相比下降4%。财报中显示，这一财季的净利润为236.36亿美元，与去年同期的241.60亿美元相比下降2%。按地区划分：苹果第二财季美洲部门营收为372.73亿美元，与去年同期的377.84亿美元相比有所下降；欧洲部门营收为243.12亿美元，与去年同期的239.45亿美元相比有所增长；
站长网站长资讯2024-05-04 08:29:13
0001
站长资讯
对标Gen-2！Meta发布新模型，进军文生视频赛道
随着扩散模型的飞速发展，诞生了Midjourney、DALL·E3、StableDifusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢，因为文生视频多数采用逐帧生成的方式，这类自回归方法运算效率低下、成本高。即便使用先生成关键帧，再生成中间帧新方法。如何插值帧数，保证生成视频的连贯性也有很多技术难点。
站长网2023-12-05 09:09:25
0002
站长资讯
Cohere企业级人工智能现已在Oracle Cloud上提供
**划重点:**1.🌐Cohere的Command和Embed模型现已通过OracleCloudInfrastructure（OCI）GenerativeAI服务普遍可用。2.💡Cohere的大型语言模型（LLMs）在快节奏的商业环境中提供多面解决方案，涵盖客户服务自动化、基于买家档案的个性化搜索和营销、虚拟销售代表等多个业务用例。
站长网2024-02-06 10:29:13
0000
站长资讯
LinkedIn 会员数量突破 10 亿，推出 AI 驱动的「求职教练」来帮助你找到工作
随着人工智能（AI）技术可能导致职位流失，利用该技术帮助人们找到新工作变得愈发重要。自周三起，LinkedIn的用户可以访问一个由AI驱动的「求职教练」，以指导他们找到下一个工作。这家由微软拥有的职业社交网络希望将人工智能推向用户体验的前沿，目的是帮助求职者为实现他们的梦想职位做好准备。
站长网2023-11-02 10:19:57
0000
站长资讯
刚刚！公众号能修改图片了！
盼星星盼月亮!终于盼到了公众号这项重大更新——文章支持修改图片了!（想省略操作过程演示的小伙伴，可以直接拉到最后看注意事项）今天，公众号后台弹窗显示“新增图片的修改”。具体来说，点击图片后，可删除或替换图片，最多支持3张图片内的修改。从公众号后台的文章修改入口进入，点击需要修改的图片，就会弹出“替换”和“修改”两个功能选项。
站长网2023-08-15 16:57:57
0000