Mistral、AI2 发布新的开源 LLMs:更小,更便宜
站长之家(ChinaZ.com) 1月31日消息:Mistral AI 和 Allen 人工智能研究所今天发布了新的大型语言模型(LLM),它们声称这些模型在各自类别中属于最先进的。
Mistral 的模型被称为 Mistral Small 3,而 Allen 人工智能研究所(通常简称 Ai2)发布的则是 Tülu 3 405B。这两款模型都可以在开源许可下使用。
Mistral Small 3 包含 240 亿个参数,远少于市场上最先进的 LLM,这使得它在启用量化后足够小,可以在某些 MacBook 上运行。量化是一种调整模型的技术,旨在在降低硬件资源需求的同时,减少一些输出质量的损失。
在一次内部评估中,Mistral 将 Mistral Small 3 与 Meta Platforms Inc. 发布的开源 LLM Llama 3.3 70B Instruct 进行了对比,后者的参数量是前者的三倍多。Mistral Small 3 提供了与 Llama 3.3 70B 类似的输出质量,但响应速度显著更快。在另一项测试中,这款新模型比 OpenAI 的 GPT-4o mini 提供了更高的输出质量和更低的延迟。
开发人员通常通过创建一个基础模型来构建 LLM,然后使用多种不同的训练方法来细化其输出质量。在构建 Mistral Small 3 时,该公司开发了基础模型,但跳过了后续的细化过程。这使得用户可以根据项目需求自行微调 Mistral Small 3。
该公司预计开发人员将会把这款 LLM 应用于各种任务,特别是在需要低延迟执行外部应用程序任务的 AI 自动化工具中。该公司表示,其一些客户还在机器人技术、金融服务和制造业等行业特定用例中使用 Mistral Small 3。
「Mistral Small 3 是一款预训练和指令式模型,专为应对『80%』的生成式 AI 任务而设计——这些任务需要强大的语言能力和指令跟随性能,并且延迟非常低,」Mistral 的研究人员在博客中写道。
今天 Mistral Small 3 的发布恰逢 Ai2(一个非营利的 AI 研究机构)发布新的 LLM。Tülu 3 405B 是 Meta 去年 6 月发布的开源 Llama 3.1 405B 模型的定制版。在 Ai2 的测试中,Tülu 3 405B 在多个基准测试中超过了原始的 Llama 模型。
该研究小组使用一种它们在 11 月首次详细说明的开发流程创建了这个 LLM。该工作流结合了多种 LLM 训练方法,其中包括 Ai2 自家发明的一种方法。
该工作流的第一步是监督微调。这是一种训练方法,通过向 LLM 提供示例提示和相应的答案,帮助它学习如何响应用户查询。接下来,Ai2 使用了另一种名为 DPO 的训练技术,将 Tülu 3 405B 的输出与一组用户偏好进行对齐。
Ai2 还使用一种名为 RLVR 的内部开发的训练方法进一步优化了模型的能力。RLVR 是强化学习的一种变体,强化学习是广泛应用的 AI 训练技术。Ai2 表示,RLVR 可以使 AI 模型在解决数学问题等任务中表现得更好。
Tülu 3 405B 代表了「完全开放的后训练方法首次应用于最大开放权重模型」,Ai2 的研究人员在博客中写道。「通过这一发布,我们展示了我们在 405B 参数规模上应用后训练方法的可扩展性和有效性。」
清华抢先开源复刻版DragGAN 网友直呼PS不存在了!
还记得几天前发布的拖拽秒P图工具DragGAN吗?这个让网友直呼PS不存在了的工具,演示视频一经发布就在国内外火得一塌糊涂。这边官方版还没用上,港大、南大、清华等就抢先开源「复刻」版DragGAN。目前,这一功能已经被集成到InternGPT中。从官方放出的演示视频来看,基本可以达到DragGAN的效果,无论是改变表情,瘦脸还是脸部转动,InternGPT都可以轻松实现。站长网2023-05-26 12:13:370000AIGC“弄脏”互联网 大模型“课本”遭污染
“AI制造”充斥互联网,连“真人小姐姐”也可以批量生成。随着生成式人工智能的爆发,一个可怕的现象出现:AI正在污染整个互联网。知乎成为生成无脑答案的重灾区,这些内容描述简短、概括性十足,细看逻辑混乱、错误百出。打开今日头条,用ChatGPT生成的虚假新闻,内容耸人听闻,足够博人眼球。站长网2023-07-31 14:13:460000Kaedim融资1500万美元,推动基于AI的3D资产创作解决方案
**划重点:**1.💰Kaedim宣布在A轮融资中筹得1500万美元,旨在支持其提供市场和基于人工智能的工具,以简化3D内容创作流程。2.🌐创业公司推出新的AI驱动市场,拥有1万个预生成的3D资产,同时展示用户创建的3D资产,计划利用资金扩展平台、团队和市场份额。0000xAI推出PromptIDE:深度洞察AI模型决策过程
🔍划重点:1.xAI推出具有突破性意义的PromptIDE,旨在改革启示引擎和机器学习模型的可解释性。2.PromptIDE提供Python代码编辑器和新的SDK,使用户能够实时探索和操纵模型的参数。3.该工具具备丰富的分析套件,包括逐词解析、采样概率、备选词建议和注意力可视化,深入分析模型的决策过程。站长网2023-11-07 09:48:140001重生:中小商家在小红书新机遇
未做小红书前,我一直做品牌策划相关,从事品牌调研、广告语撰写、项目提案等内容,接触的品牌几乎是区域或行业龙头品牌。当时公司策划项目也是50W起,这都不包括广告费用,久而久之就会产生一种错觉,拿不出50W策划费,还做什么营销!如果你和我有类似的经历,那我们一定看过华与华、叶茂中、科特勒、定位等等书籍。但做小红书营销后,之前理论也逐步失效,因为接触的商家各种各样都有。站长网2023-08-11 11:48:420000