新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT
要点:
1、NExT-GPT支持任意模态的输入和输出,实现了从任一模态到任一模态的转换。
2、NExT-GPT通过组合开源的编码器、语言模型和解码器实现了全能的多模态能力。
3、NExT-GPT实现了端到端的训练和指令微调,具有较好的多模态表示对齐能力。
继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。
项目地址:https://next-gpt.github.io
代码地址:https://github.com/NExT-GPT/NExT-GPT
论文地址:https://arxiv.org/abs/2309.05519
NExT-GPT的优势在于它实现了真正意义上的任意模态输入到任意模态输出,而不是仅仅支持某一种固定的输入输出模式。用户可以随意组合不同模态进行查询,NExT-GPT都可以进行理解并用请求的模态形式给出响应。这充分模拟了人类处理信息的能力,是向通用人工智能目标迈进的重要一步。
在技术上,NExT-GPT并没有创新算法,而是站在巨人的肩膀上,通过组合优化利用现有的各类开源模块实现全能目标。具体来说,模型包含三个层次:第一,使用各类模态编码器对输入进行编码;第二,语言模型负责复杂推理;第三,解码器生成各种模态输出。
NExT-GPT的独特之处在于实现了模态特征表达的端到端对齐训练,以及针对多模态输出做了指令微调。这保证了在输入理解、内部推理和输出生成各层次间特征的有效传递,从而实现了优秀的多模态理解与生成能力。
虽然NExT-GPT目前还有待进一步扩展,但其展示了构建通用多模态系统的可能性,为人工智能研究提供了宝贵的借鉴。后续工作可以考虑扩展更多模态,使用更大规模的语言模型基座,以及改进多模态生成策略等。
成魔还是成佛?面对科技狂潮,内容行业要有一颗人文之心
“新的技术导致新的市场,而新的市场会改变我们每一个人的生活,而新的生活又将会带来新的人文……那么,科技将如何改写人类文明的未来?”12月1日,2023腾讯ConTech大会“新人文”分论坛上,科学作家、译者季燕江提出了一个现实且前沿的开放性议题。0000消费习惯加速养成,辐射欧洲,TikTok Shop英区迎来爆发
TikTok从4年前就开始探索在全球开展电商业务的可能性——英国,便成为其欧美市场的首站。无论是从基础设施成熟度、市场灵活性,创新、人才、经济等实力,以及对于欧美市场的影响,英国对于出海品牌来说无疑是极具吸引力的。4年后,英国正处于加速爆发阶段,并彰显出巨大潜力。TikTokShop英区在2024年黑五期间的销售额创下历史新高,同比增长接近2倍。三位数的增长,在2024年显得尤为难得。0000免费开放!Lumalabs AI推出Dream Machine文生视频模型
6月13日,3D建模平台LumaAI推出了一款名为DreamMachine的新型文生视频模型,并向所有用户免费开放。DreamMachine不仅支持文本生成视频,还能利用图片作为引导来创造视频内容。其生成的视频在质量、动作一致性、色彩、光影、饱和度和运镜等方面与OpenAI的Sora相媲美。站长网2024-06-13 11:20:230000文心一言放开后,我们评测了百度搜索的「AI伙伴」
今天凌晨,百度突然官宣,文心一言全面开放,人人都能上手用了!官网地址:https://yiyan.baidu.com现在,只需登陆「文心一言官网」即可体验。真正重磅的是,一批全新重构的百度AI原生应用,包括百度搜索、「文心一言APP」、输入法、百度文库率先开放。站长网2023-09-01 11:42:400000「微李」和解内幕:微念付费获李子柒品牌经营权;放弃网红经纪业务
2021年3月,网红李子柒背后所属MCN公司微念获得字节跳动最新一轮融资,融资完成后微念估值高达50亿元。如果4个月后,李子柒没有停更,没有跟微念彻底决裂并对薄公堂的话,也许现在微念已经完成上市辅导。双方在业内的知名度与影响力亦不可同日而语,李子柒可能成了商业价值最成功的网红,微念也跻身名利双收的上市公司行列。然而,现实商业世界里,没有那么多如果。站长网2023-05-12 20:24:360000