魔搭社区开源多模态对齐统一框架OneLLM

站长网2023-12-22 08:44:5611阅

OneLLM 是一种多模态对齐的统一框架，它使用通用编码器和统一的投影模块与 LLM（Large Language Model）对齐多模态输入。OneLLM 还通过使用 modality tokens 实现了在不同模态之间的切换。

OneLLM 的核心组件包括多模态 token 的 tokenizer、通用编码器、统一的投影模块和大语言模型。

多模态 token 的 tokenizer 将输入的各种模态信号转换为 token 序列，以便进行后续处理和对齐。

通用编码器是在 LAION（Language and AI ON）平台上训练的 CLIP VIT Large 模型，它具有强大的语义理解能力，可以对多模态输入进行编码。

统一的投影模块（UPM）是将各个模态的输入投影到 LLM 的 embedding 向量空间中，以实现多模态的对齐。UPM 由 K 个投影专家组成，每个专家包含多个 transformers 块和大量的参数。

大语言模型是 OneLLM 采用的开源 LLaMA2-7B 模型，它在大规模文本数据上进行了预训练，可以对输入进行更深入的语义理解和生成。

OneLLM 支持多种不同模态数据的理解，包括图像、音频、视频、点云、深度 / 法线图、IMU 和 fMRI 大脑活动。

实验证明，OneLLM 在视频 - 文本、音频 - 视频 - 文本、音频 - 文本等任务中优于现有方法，表现出了较强的零样本能力。

Github代码链接:

https://github.com/csuhan/OneLLM

模型权重链接:

https://modelscope.cn/models/csuhan/OneLLM-7B

模型创空间:

https://modelscope.cn/studios/csuhan/OneLLM

魔搭社区开源多模态对齐统一框架OneLLM

00011

评论列表

共(0)条

相关推荐

站长资讯
主播收入增长447%，近期视频号变现动作不断，创作者的机会在哪？
在腾讯2022年公布的四季报及全年年报中，关于视频号有几个重点:1、在聊天和非聊天场景增长的推动下，微信总使用时长于2022年间持续增长。视频号使用时长为去年同期的三倍;2、视频号在直播活动中获得了更多用户心智，共1.9亿用户通过视频号直播观看了2023年中央电视台春节联欢晚会;3、视频号直播服务收入增加;
站长网2023-04-19 12:13:51
0000
百果园抖音团购年销2亿解密
水果零售常年是一个难做的行业，中间链路多、运输消耗大、销售成本高，从路边摊到专业门店，线上线下都是竞争对手。在这个行业中，抖音本地生活年销破亿是件很难的事。但百果园做到了:8000万会员规模和700万月活跃、2000万以上年活跃;6000的全国门店账号;100万的短视频数量造就了抖音团购年销2.4亿，成为“抖音本地生活水果类目第一”。
站长网站长资讯2024-01-02 15:54:37
0001
站长资讯
李跳跳们怎么跳过开屏广告的？算不正当竞争吗？
广告，对于众多互联网大厂来说，都是一项重要的收入来源。但对用户而言，则谈不上喜欢，特别是莫名弹出、不好找关闭按钮的广告。昨天清晨，“大小姐李跳跳”公众号发文称，用于安卓手机跳过各大App开屏广告的“李跳跳”将无限期停止更新。事情的起因是，“李跳跳”收到了一份来自国内互联网大厂的律师函，称其可用于过滤、屏蔽该公司旗下浏览器的广告服务，并吸引用户下载、使用涉案软件，构成不正当竞争”。
站长网2023-08-28 13:50:51
0001
苹果拿出史上最好财报：一个季度营收超9000亿元刷新历史纪录
快科技1月31日消息，苹果公司今日发布了2025财年第一季度（对应自然年2024年第四季度）的财务报告，营收达到1243亿美元（约合人民币9013.5亿元）。这一数字较去年同期的1196亿美元增长了4%，并创下了季度营收的新纪录。同期，苹果的净利润达到了363亿美元（约合人民币2634.8亿元），同比增长4%。
站长网站长资讯2025-01-31 15:24:11
0000
站长资讯
BOSS直聘崩了上热搜官方回应：经过团队抢修已恢复正常
今日早间，boss直聘崩了登上微博热搜榜一。网友们反馈称，BOSS直聘APP页面显示“网络异常，请检查网络后重试”无法显示内容。对此，BOSS直聘发布公告称，7月6日上午，BOSS直聘APP出现短时间服务异常，经过团队抢修已恢复正常。
站长网2023-07-06 16:40:44
0002