魔搭社区开源多模态对齐统一框架OneLLM
OneLLM 是一种多模态对齐的统一框架,它使用通用编码器和统一的投影模块与 LLM(Large Language Model)对齐多模态输入。OneLLM 还通过使用 modality tokens 实现了在不同模态之间的切换。
OneLLM 的核心组件包括多模态 token 的 tokenizer、通用编码器、统一的投影模块和大语言模型。
多模态 token 的 tokenizer 将输入的各种模态信号转换为 token 序列,以便进行后续处理和对齐。

通用编码器是在 LAION(Language and AI ON)平台上训练的 CLIP VIT Large 模型,它具有强大的语义理解能力,可以对多模态输入进行编码。
统一的投影模块(UPM)是将各个模态的输入投影到 LLM 的 embedding 向量空间中,以实现多模态的对齐。UPM 由 K 个投影专家组成,每个专家包含多个 transformers 块和大量的参数。
大语言模型是 OneLLM 采用的开源 LLaMA2-7B 模型,它在大规模文本数据上进行了预训练,可以对输入进行更深入的语义理解和生成。
OneLLM 支持多种不同模态数据的理解,包括图像、音频、视频、点云、深度 / 法线图、IMU 和 fMRI 大脑活动。
实验证明,OneLLM 在视频 - 文本、音频 - 视频 - 文本、音频 - 文本等任务中优于现有方法,表现出了较强的零样本能力。
Github代码链接:
https://github.com/csuhan/OneLLM
模型权重链接:
https://modelscope.cn/models/csuhan/OneLLM-7B
模型创空间:
https://modelscope.cn/studios/csuhan/OneLLM
天猫上线AI砍价功能 网友:AI的出击让我“脚趾扣地”
近日,小红书博主“脆皮钵钵柒”在平台上分享了自己在天猫App中的新奇体验。他在购物车页面偶然发现了一个“帮讲价”的按钮,出于好奇尝试点击后,出现了客服对话页面,AI主动出击,向商家提出“¥38.3卖不卖”的砍价要求,这一行为让博主感到十分尴尬,形容自己“脚趾扣地”。站长网2024-04-24 16:11:310000AIGC“弄脏”互联网 大模型“课本”遭污染
“AI制造”充斥互联网,连“真人小姐姐”也可以批量生成。随着生成式人工智能的爆发,一个可怕的现象出现:AI正在污染整个互联网。知乎成为生成无脑答案的重灾区,这些内容描述简短、概括性十足,细看逻辑混乱、错误百出。打开今日头条,用ChatGPT生成的虚假新闻,内容耸人听闻,足够博人眼球。站长网2023-07-31 14:13:460000ChatGPT现在允许用户直接从 Google Drive、Microsoft OneDrive 导入文件
划重点:⭐OpenAI的ChatGPT现已升级,允许用户直接从GoogleDrive和MicrosoftOneDrive导入文件。⭐用户可通过点击界面底部文本输入栏左侧的小纸夹图标找到此功能。⭐该功能针对ChatGPTPlus、Team和Enterprise用户,并适用于新的GPT-4o模型和旧模型。站长网2024-05-17 14:25:450000人工智能与人工智能正在线上评价战场上对抗:「持续的猫鼠游戏」
线上评论战场上,人工智能与人工智能正在对抗。能够生成类似人类评论的生成式人工智能受到专门用于检测虚假评论的人工智能的对抗。这种对抗不仅影响着消费者,还关系着网络内容的未来。Fakespot的创始人兼CEOSaoudKhalifah表示,该公司已经看到大量生成式虚假评论。Fakespot正在努力找到一种方法来检测类似ChatGPT的人工智能平台生成的内容。0000vivo千询AI助手开放下载 基于蓝心大模型打造
在最近一次的vivo开发者大会上,vivo发布了一款名为“蓝心千询”的自然语言对话机器人,这款机器人是基于蓝心大模型的。vivo表示,这款机器人将向所有手机品牌开放使用。目前,“蓝心千询”应用已经正式在vivo官方应用商店上架,所有品牌的手机都可以通过下载APK文件来安装使用。站长网2023-11-20 18:02:450002