新加坡国立大学开源多模态语言模型 NExT-GPT,助力多媒体 AI 应用发展
**划重点:**
1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频,为开发者提供强大的多模态语言模型。
2. 🧠 **架构与训练:** 采用三层架构,包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。
3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用,潜在应用领域广泛。
新加坡国立大学(NUS)NExT 研究中心发布了开源多模态大语言模型 NExT-GPT,为处理文本、图像、视频和音频等多样化输入提供了强大支持,推动了多媒体人工智能应用的进一步发展。
NExT-GPT 提供了一个基于聊天的界面,允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应,回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器,包括 Vicuna 和 Stable Diffusion,并通过 NExT 团队研发的 Modality-switching Instruction Tuning(MosIT)技术进行中间层的训练。
图源备注:图片由AI生成,图片授权服务商Midjourney
NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段,负责生成标记的 Vicuna LLM 核心,以及具有模态特定的转换层和解码器的解码阶段。值得注意的是,在训练过程中,模型的大部分参数,包括编码器、解码器和 Vicuna 模型,都保持冻结状态,只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。
该模型通过使用示例对话数据集进行训练,该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景,总共包括约5,000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果,并在不同场景下通过人类评审获得了高分,其中图像生成场景的得分高于视频和音频。
NExT-GPT 独特之处在于其能够在用户请求特定类型内容(如图像、视频或声音)时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的,并在训练期间被包含其中。
NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型,可以处理各种输入和输出,为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献,使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。
2023年华为开发者大会:余承东宣布小艺将具备AI大模型能力
在2023年的华为开发者大会上,华为的常务董事、终端BGCEO、智能汽车解决方案BUCEO余承东发表了演讲。他提到,回顾过去的四年,鸿蒙生态经历了艰难的过程,但是现在已经渡过了难关。华为的旗舰手机正在回归市场,今年第二季度在中国高端市场的份额排名第二,市场份额增长了76.1%。站长网2023-08-04 15:12:050001强大人工智能编码助手code AI 自动分析代码结构并优化
codeAI是一款强大的人工智能编码助手,旨在提供便捷高效的编码体验。它结合了先进的机器学习技术和丰富的编程知识,为开发人员提供了全面的编码支持和智能建议。通过深度学习算法,codeAI能够自动分析代码结构,并识别出潜在的错误和优化机会。它能够快速定位问题,并提供实时的修复建议,从而大大提高代码质量和开发效率。站长网2024-01-08 15:41:010001长城汽车与抖音集团达成战略合作 涉及大模型应用等方向
长城汽车与抖音集团达成战略合作,将在大数据、企业大模型应用、云基础设施、数字化营销以及智能座舱、智能驾驶等方向展开合作。双方将共同探索企业知识库的搭建、开发基于大模型的办公类应用,以及打造更具互联网思维的业务发展新尝试。这次合作将加速长城汽车的数字化、智能化、精准互联网营销改革。站长网2023-11-14 08:19:430001霸占带货榜TOP3,珠宝直播虚火正旺
过去3个月,抖音电商带货榜的常驻TOP3,易主了!@东方甄选、@交个朋友、@疯狂小杨哥等一众熟悉的老面孔逐渐“退后”,而3个“珠光宝气”的中青年男人@云上珠宝、@新疆和田玉老郑和@小北珠宝严选,排名却不断“靠前”,在7、8月,更是形成了霸榜优势。将视野放大到Q3预估销售额TOP100的直播间,也能发现:主营品类为珠宝首饰的直播间占比近3成。且相比于其他品类,还存在两个明显的共性:站长网2023-10-13 11:56:260000联发科将开发集成英伟达GPU芯粒的汽车SoC
联发科宣布与英伟达达成合作协议,为软件定义汽车提供完整的AI智能座舱解决方案。在该方案中,联发科将开发汽车SoC,将英伟达GPU芯片集成入其中,并搭载英伟达的AI和图形计算IP。这一芯片支持互连技术,使得芯片间能够流畅高速地互联互通。此外,该方案将运行英伟达的DRIVEOS、DRIVEIX、CUDA和TensorRT软件技术。站长网2023-05-29 15:14:440000