新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

站长网2023-09-18 14:37:210阅

要点:

1、NExT-GPT支持任意模态的输入和输出，实现了从任一模态到任一模态的转换。

2、NExT-GPT通过组合开源的编码器、语言模型和解码器实现了全能的多模态能力。

3、NExT-GPT实现了端到端的训练和指令微调，具有较好的多模态表示对齐能力。

继各类单一模态输入的多模态语言模型后，新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。

项目地址:https://next-gpt.github.io

代码地址:https://github.com/NExT-GPT/NExT-GPT

论文地址:https://arxiv.org/abs/2309.05519

NExT-GPT的优势在于它实现了真正意义上的任意模态输入到任意模态输出，而不是仅仅支持某一种固定的输入输出模式。用户可以随意组合不同模态进行查询，NExT-GPT都可以进行理解并用请求的模态形式给出响应。这充分模拟了人类处理信息的能力，是向通用人工智能目标迈进的重要一步。

在技术上，NExT-GPT并没有创新算法，而是站在巨人的肩膀上，通过组合优化利用现有的各类开源模块实现全能目标。具体来说，模型包含三个层次:第一，使用各类模态编码器对输入进行编码;第二，语言模型负责复杂推理;第三，解码器生成各种模态输出。

NExT-GPT的独特之处在于实现了模态特征表达的端到端对齐训练，以及针对多模态输出做了指令微调。这保证了在输入理解、内部推理和输出生成各层次间特征的有效传递，从而实现了优秀的多模态理解与生成能力。

虽然NExT-GPT目前还有待进一步扩展，但其展示了构建通用多模态系统的可能性，为人工智能研究提供了宝贵的借鉴。后续工作可以考虑扩展更多模态，使用更大规模的语言模型基座，以及改进多模态生成策略等。

新加坡华人团队开源全能大一统多模态大模型NExTGPT

0000

评论列表

共(0)条

相关推荐

站长资讯
GitHub一项调查显示：92%的程序员正在使用人工智能
GitHub进行了一项调查，旨在了解有多少程序员正在使用AI工具。结果显示，500名接受调查在美国工作的开发人员中有92%的人表示已经将AI工具整合到了工作中，而70%的人表示这些工具为他们的工作带来了“优势”。
站长网2023-06-20 17:10:32
0001
站长资讯
科大讯飞：讯飞星火大模型数学能力方面结果优于ChatGPT
近日，科大讯飞表示，根据系统、科学的评测体系结果，讯飞星火认知大模型数学能力方面结果优于ChatGPT，针对大模型普遍存在的问题，星火大模型有明确的升级迭代里程碑计划，6月9日，星火大模型的数学能力还会再上一个新的台阶。
站长网2023-05-26 08:46:49
0000
德国媒体感慨中国科技发展太快：若只卖玩具、纺织品、手机电脑就好了
快科技2月15日消息，近日德国媒体发文，感慨中国科技发展速度实在是太快了。《商业内幕》德国版（businessinsider.de）报道称，历经30年的发展，中国在全球生产中的份额增长极其迅速，从1995年的不足5%跃升至目前的32%。这证明了中国拥有崛起为新型超级大国的实力”。如果中国（在全球生产中）的主导地位仅限于玩具、纺织品甚至是笔记本电脑和智能手机，就不会引起担忧了。”
站长网站长资讯2025-02-15 10:03:40
0000
站长资讯
Salesforce调查：68%的员工支持生成式AI，以帮助改善工作
Salesforce的一项新调查发现，68%的员工表示，生成式人工智能将帮助他们更好地为客户服务。Salesforce的GenerativeAISnapshotResearch调查了4000多名全职员工。研究发现，73%的员工认为生成式人工智能会带来新的安全风险，尽管大多数人使用或计划使用该技术。
站长网2023-06-22 12:28:04
0001
站长资讯
谷歌版ChatGPT支持中文了！弱智吧实测结果在此
Claude2发布之后，Google也按耐不住，立马官宣了Bard的船新版本。支持的语言变多了，其中就包括中文，让广大网友直接喜提新玩具。总结一下这次更新，主要包括这些内容:支持包括中文在内的40多种语言（含图形界面）图像识别，需要在账号设置中将显示语言改为英语对话朗读聊天记录和对话分享，代码可导出到Replit回复内容可编辑不过在官宣的这些内容之外，似乎有网友发现了华点:
站长网2023-07-16 05:52:23
0001