首页站长资讯新加坡国立大学开源多模态语言模型 NExT-GPT，助力多媒体 AI 应用发展

新加坡国立大学开源多模态语言模型 NExT-GPT，助力多媒体 AI 应用发展

站长网2023-11-29 14:37:330阅

**划重点:**

1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频，为开发者提供强大的多模态语言模型。

2. 🧠 **架构与训练:** 采用三层架构，包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。

3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用，潜在应用领域广泛。

新加坡国立大学（NUS）NExT 研究中心发布了开源多模态大语言模型 NExT-GPT，为处理文本、图像、视频和音频等多样化输入提供了强大支持，推动了多媒体人工智能应用的进一步发展。

NExT-GPT 提供了一个基于聊天的界面，允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应，回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器，包括 Vicuna 和 Stable Diffusion，并通过 NExT 团队研发的 Modality-switching Instruction Tuning（MosIT）技术进行中间层的训练。

图源备注：图片由AI生成，图片授权服务商Midjourney

NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段，负责生成标记的 Vicuna LLM 核心，以及具有模态特定的转换层和解码器的解码阶段。值得注意的是，在训练过程中，模型的大部分参数，包括编码器、解码器和 Vicuna 模型，都保持冻结状态，只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。

该模型通过使用示例对话数据集进行训练，该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景，总共包括约5，000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果，并在不同场景下通过人类评审获得了高分，其中图像生成场景的得分高于视频和音频。

NExT-GPT 独特之处在于其能够在用户请求特定类型内容（如图像、视频或声音）时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的，并在训练期间被包含其中。

NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型，可以处理各种输入和输出，为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献，使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。

新加坡国立大学开源多模态语言模型NExTGPT助力多媒体AI 应用发展

0000

评论列表

共(0)条

相关推荐

美国前总统：库克已经超越乔布斯否则苹果不会这么成功
快科技10月18日消息，近日美国前总统接受媒体采访时表示，库克已经超越乔布斯。苹果公司需要的是像蒂姆库克（TimCook）这样的CEO，才能确保公司取得现在这样的成功。”特朗普表示：我之所以这么认为，是因为库克做得非常出色。当然，我不是在抨击乔布斯。但如果由他管理，苹果今天的情况就不会一样。”
站长网站长资讯2024-10-19 08:12:12
0000
站长资讯
谷歌Deepmind发布最先进的图像生成模型Imagen 2
谷歌Deepmind宣布了他们最先进的图像生成模型Imagen2。该模型通过参考图片和文本生成新图片和局部编辑的效果比较强大。这一最新模型的主要特点包括改进的图像描述理解。为了帮助创建更高质量和更准确的图像，Imagen2的训练数据集中添加了更多描述，帮助该模型学习不同的标题风格，并更好地理解广泛的用户提示。
站长网2023-12-14 09:54:46
0000
站长资讯
特斯拉：受欧盟关税影响中国产的出口Model 3下月涨价
快科技6月13日消息，特斯拉官方宣布，由于欧盟即将实施的关税政策，预计从2024年7月1日起对中国制造并在欧盟销售的Model3汽车价格进行上调。目前，特斯拉德国官网在售的Model3后轮驱动版售价为40990欧元（约合人民币32.1万元），长续航版本为49990欧元（约39.2万元），全轮驱动性能版为56990欧元（约44.7万元）。
站长网2024-06-14 16:37:38
0000
站长资讯
联发科技发布天玑 6100+ 5G 芯片：支持高帧率和 AI 相机技术
无厂半导体公司联发科技（MediaTek）于周二推出了其最新的天玑61005G芯片，该芯片属于其新的天玑6000系列。联发科技表示，天玑6100芯片专注于提供功耗效率、鲜艳的显示效果、高帧率、基于人工智能的相机技术、低功耗和次6GHz的5G连接性。据该芯片制造商透露，首批搭载天玑6100芯片的智能手机将在2023年第三季度上市。
站长网2023-07-12 09:09:56
0006
站长资讯
抖音图文带货，很赚钱
各位村民好，我是村长。在抖音，就只能靠短视频和直播赚钱吗?传统图文真的没有市场了吗?今天村长就要来和大家聊一聊，抖音图文带货的赛道是如何赚钱的。01什么是抖音图文带货依然有很大一部分人，不知道什么叫抖音图文，更不知道什么叫抖音图文带货。所以我先做个最基础的科普，懂的人就当作复习了。抖音图文就是指你在抖音发布以纯图片或者图片文字的内容上形式，比如几张T恤、零食的产品图。
站长网2023-06-06 19:07:28
0001