魔搭社区开源多模态对齐统一框架OneLLM
OneLLM 是一种多模态对齐的统一框架,它使用通用编码器和统一的投影模块与 LLM(Large Language Model)对齐多模态输入。OneLLM 还通过使用 modality tokens 实现了在不同模态之间的切换。
OneLLM 的核心组件包括多模态 token 的 tokenizer、通用编码器、统一的投影模块和大语言模型。
多模态 token 的 tokenizer 将输入的各种模态信号转换为 token 序列,以便进行后续处理和对齐。
通用编码器是在 LAION(Language and AI ON)平台上训练的 CLIP VIT Large 模型,它具有强大的语义理解能力,可以对多模态输入进行编码。
统一的投影模块(UPM)是将各个模态的输入投影到 LLM 的 embedding 向量空间中,以实现多模态的对齐。UPM 由 K 个投影专家组成,每个专家包含多个 transformers 块和大量的参数。
大语言模型是 OneLLM 采用的开源 LLaMA2-7B 模型,它在大规模文本数据上进行了预训练,可以对输入进行更深入的语义理解和生成。
OneLLM 支持多种不同模态数据的理解,包括图像、音频、视频、点云、深度 / 法线图、IMU 和 fMRI 大脑活动。
实验证明,OneLLM 在视频 - 文本、音频 - 视频 - 文本、音频 - 文本等任务中优于现有方法,表现出了较强的零样本能力。
Github代码链接:
https://github.com/csuhan/OneLLM
模型权重链接:
https://modelscope.cn/models/csuhan/OneLLM-7B
模型创空间:
https://modelscope.cn/studios/csuhan/OneLLM
特斯拉回应单踏板模式被禁传言:不影响现有的产品和功能
快科技6月3日消息,对于近期市场上关于特斯拉单踏板模式或被禁止的传言,特斯拉方面向媒体回应称:这项标准目前尚未正式发布和实施,不影响现有的产品和功能。据此前报道,近期,工信部就一项强制性国家标准《乘用车制动系统技术要求及实验方法》公开征求意见。意见中对单踏板提出了具体要求,也就是在前进挡下通过松开加速踏板实现的制动作用不能使车辆减速至停车”。站长网2024-06-03 16:59:300000比特币价格破81000美元 年内累计涨超90%
在加密货币市场,比特币价格达到了一个新的里程碑。据报道,比特币价格在历史上首次突破了81000美元大关,这一价格的突破标志着比特币年内累计涨幅已超过90%。此次价格上涨不仅反映了市场对比特币和其他加密货币兴趣的增加,也显示了数字货币市场的强劲势头。在周日的交易中,比特币价格首次触及8万美元,随后在周一早间进一步升至81000美元以上。0000妙鸭相机B端工作站将上线 已开启内测
据新浪科技消息,妙鸭相机方面透露称,妙鸭相机B端工作站明日即将上线,目前已经邀请到一些摄像师、设计人员来做内测,同时也欢迎更多的人参与内测。“妙鸭相机”是一款AI写真应用,通过AI学习消费者上传的照片来构建人脸模型,只要上传完照片,就能产生无数风格的写真。据了解,此前妙鸭相机已上线了APP以及小程序版本。站长网2023-08-03 15:28:100000魅族宣布征集Flyme中文OS名称:要像鸿蒙、澎湃一样响亮
魅族科技今天宣布,他们将启动一个活动,为Flyme操作系统征集一个中文名称。这个活动从即日起到11月25日,网友可以在微博、抖音、魅族社区等平台发布带有#Flyme征集中文OS名的话题并发布自己的创作,参与命名活动的网友有机会赢取由魅族提供的“华小魅”手机组合,包含华为Mate60Pro、小米14Pro和魅族20PRO。站长网2023-11-09 11:07:580000微软推ZeRO++新系统:减少大模型训练时间和成本
微软研究人员推出了名为ZeRO的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。ZeRO建立在现有的ZeRO优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。站长网2023-06-27 16:04:000000