击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜
一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?
「我就午休了30分,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。
排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。
更引人注目的是,FreeWilly2在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5相抗衡的开源大模型,这是 Llama2都没有做到的事情。
FreeWilly1基于原始的 LLaMA65B 基础模型构建,并且在标准 Alpaca 格式下,使用新的合成数据集进行了仔细的有监督微调(SFT)。FreeWilly2则基于最新的 LLaMA270B 基础模型构建。
从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:
数据来源
FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。
FreeWilly 的数据集包含了60万个数据点(大约是原始 Orca 论文使用的数据集大小的10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:
COT Submix Original
NIV2Submix Original
FLAN2021Submix Original
T0Submix Original
采用这种方法,研究者使用了一个较简单的 LLM 模型生成了50万个示例,并使用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。
性能数据
为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。
其中,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。
AGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。
在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。
两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):
二者在 AGIEval 基准上的表现如下(全部是0-shot):
此外,他们还在 GPT4ALL 基准上对两个模型进行了测试(全部是0-shot):
总体来看,这两个模型的性能表现都非常优秀,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。
FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor
FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2
从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama2才刚刚推出3天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。
不过,需要注意的是,虽然两个模型都是开放获取的,但和 Llama2不同,它们是以非商业许可的形式发布的,仅可用于研究目的。
然而,这样的做法引起了网友质疑。
对此,Stability AI的研究者回复说,这种情况(仅用于研究目的)只是暂时的,未来,FreeWilly 有望像 Llama2一样允许商用。
此外,也有人对测试采用的基准产生了质疑:
这也是当前一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议,后来,该事件彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评估这些模型依然是一个值得讨论的问题。因此,对于这些登顶排行榜的模型,我们有必要保持更加谨慎的态度,等待更多的评测结果出炉。
参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement
Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出
【新智元导读】最核心的Claude3.5编码系统提示,火遍Reddit社区。就在刚刚,原作者发布了进化后的第二版,有的网友已经将其加入工作流。一则关于ClaudeSonnet3.5核心编码的系统提示,最近在Reddit上传疯了!名为ssmith12345uk用户在r/ClaudeAI主板下面,讲述了自己通过Claude代码实践,不断调整系统提示来优化模型。站长网2024-07-16 16:11:250005深言科技联合清华大学NLP实验室开源LingoWhale-8B模型
站长之家(ChinaZ.com)11月3日消息:深言科技与清华大学NLP实验室联合开源了LingoWhale-8B模型,这是一种拥有约80亿参数的中英双语大语言模型。该模型在多个公开评测基准上达到领先效果,在10B以下开源模型中表现出色。LingoWhale-8B模型具备强大的基础能力,能够完成各种任务,包括数学计算、代码生成、逻辑推理、对话和知识问答等。站长网2023-11-03 16:29:540000直播新风口,团播为何让人上头?
“招募团播女主播,底薪8000元提成”、“才艺团保底10000元起,免费舞蹈培训”、“保底8000-15000元,目前团播主播综合月收入50000元以上”......在招聘市场上,这样的信息格外亮眼,并且有着大量需求,这些岗位来自当下火爆的团播直播间。所谓团播指的是主播人数多于两个的直播间,一般由3-5名主播组成,并配有一个专门控场的主持人。站长网2024-09-10 16:26:110000清华等开源多智能体框架AgentVerse 可让多个模型之间进行协作
要点:1.AgentVerse是一个多智能体框架,旨在促进大型语言模型之间的协作,以提高任务完成效率。2.AgentVerse框架包括专家招募、协同决策、行动执行和评估四个关键阶段,模拟人类群体问题解决过程。3.实验结果表明,AgentVerse框架能够有效部署多智能体群组,性能优于单一智能体,促进了协作等社会行为。站长网2023-09-22 09:23:050002每周AI大事件 | GPT-4全面进入Windows 11、AI诈骗正全国爆发、百度内测基于大模型多款产品
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。注:图片由midjourney生成Part1动态[国内要闻]百度正内测基于大模型技术的“AI伙伴”、“AIBOT”以及NEWAPP等产品站长网2023-05-26 09:44:010001