MosaicML发布大型语言模型 MPT-7B 可商用
站长网2023-05-11 12:02:560阅
MosaicML 的 MPT-7B 是一个具有近70亿个参数的大型语言模型,该团队在自己的近万亿个标记的数据集上对其进行了训练。
MosaicML 遵循 Meta 的LLaMA模型的训练方案。培训花费近200,000美元,使用 MosaicML 平台耗时9.5天。
MosaicML表示,MPT-7B 与 Meta 的70亿参数 LLaMA 模型的性能相匹配,使其成为第一个达到该水平的开源模型,领先于OpenLLaMA。与 Meta 的模型不同,MPT-7B 已获得商业使用许可。
除了“MPT-7B Base”模型,MosaicML 还发布了三个变体:MPT-7B-StoryWriter-65k 、MPT-7B-Instruct 和 MPT-7B-Chat。
借助 MPT-7B-StoryWriter-65k ,MosaicML 还发布了一个模型,该模型能够读取和写入上下文长度非常长的故事。为此,使用 books3数据集的子集对 MPT-7B 进行了微调,上下文长度为65,000个标记。OpenAI 最大的 GPT-4变体能够处理32,000个标记。
根据 MosiacML 的说法,该模型可以通过一些优化扩展到超过65,000个token,并且该团队已经在使用 Nvidia A100-80GB GPU 的单个节点上展示了多达84,000个token。但即使有65,000个token,也可以阅读整部小说并写一篇结语。

项目网址:https://github.com/mosaicml/llm-foundry
0000
评论列表
共(0)条相关推荐
OpenAI 的 GPT-4 变得「懒惰」和「愚蠢」:或被 MoE 彻底重塑导致性能下降
世界上最强大的人工智能模型似乎变得不那么强大了。这让业内人士开始谈论可能会对该系统进行重大重新设计。最近几周,OpenAI的GPT-4的用户们纷纷抱怨性能下降,有些人将这个模型与以前的推理能力和其他输出进行比较,称其变得「懒散」和「更笨」。站长网2023-07-14 09:50:370000高合汽车直播卖牛排:收入用于支持一线售后员工
近日,身处舆论风口浪尖的高合汽车,宣布踏入直播带货领域,以此展开自救行动。深陷降薪、停工停产等负面消息的高合汽车,如今选择了直播带货这一新型销售模式,希望能借此走出困境。高合汽车工程项目总监杨悦卿,以全新的身份——主播,亮相在官方直播间。他不再只是解说汽车技术,而是开始为牛排、牛肉卷等食品带货,这一幕让众多网友戏称“宇宙的尽头都是带货”。站长网2024-03-09 17:01:450000调查显示:超一半新西兰Z世代员工正使用生成式AI工具
文章概要:-调查显示超过一半的新西兰的Z世代雇员正在使用生成式AI工具,但只有1/5了解相关风险。-专家表示企业领导人需要提高AI知识,确保员工了解可接受的使用方式和风险。-更好的治理是使用AI的关键,企业应制定AI政策指导员工正确使用。站长网2023-10-11 18:17:590000三星正在测试将ChatGPT集成到其移动浏览器中
三星一直在寻找将AI引入其智能手机的方法。此前有报道提到三星如何引起谷歌的恐慌,仅仅是因为它希望从谷歌搜索切换到MicrosoftBing的人工智能功能。后来,三星放弃了这个想法,坚持使用谷歌搜索。据TechNewsSpace报道,三星正在测试将ChatGPT集成到其移动浏览器中。目前,三星互联网浏览器中没有与ChatGPT相关的功能。站长网2023-07-15 11:18:540000AI日报:ComfyUI0.2.0全新版本发布;混合现实插画模型FLUX.1-dev-LoRA;Playground V3生图模型发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、全新ComfyUI0.2.0版本重磅来袭,为设计师带来工作流程革命站长网2024-09-05 05:38:360000