这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练
最近,开源大模型社区再次「热闹」了起来,主角是 AI 写作初创公司 HyperWrite 开发的新模型Reflection70B。
它的底层模型建立在 Meta Llama3.170B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。
这个模型横扫了 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了405B 的 Llama3.1。
凭借如此惊艳的效果,Reflection70B被冠以开源大模型新王。该模型更是由两位开发者(HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary)花了3周完成,效率可谓惊人。
Reflection70B 能不能经受住社区的考验呢?今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试,结果有点出乎意料。
该机构表示,Reflection Llama3.170B 的 MMLU 得分仅与 Llama370B 相同,并且明显低于 Llama3.170B。
图源:https://x.com/ArtificialAnlys/status/1832505338991395131
还有科学推理与知识(GPQA)和定量推理(MATH)基准测试的结果,同样不如 Llama3.170B。
图源:https://x.com/ArtificialAnlys/status/1832457791010959539
此外,Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection70B 与Llama3.1、Llama3权重的差异,结果显示,Reflection 模型似乎是使用了经过 LoRA 调整的 Llama3而不是 Llama3.1。
贴主还提供了以上模型权重比较结果的代码来源。
fromtransformersimportAutoModelForCausalLM,AutoTokenizerimporttorchimportmatplotlib.pyplotaspltimportseabornassnsbase_model_name="meta-llama/Meta-Llama-3-70B-Instruct"chat_model_name="mattshumer/Reflection-Llama-3.1-70B"base_model=AutoModelForCausalLM.from_pretrained(base_model_name,torch_dtype=torch.bfloat16)chat_model=AutoModelForCausalLM.from_pretrained(chat_model_name,torch_dtype=torch.bfloat16)defcalculate_weight_diff(base_weight,chat_weight):returntorch.abs(base_weight-chat_weight).mean().item()defcalculate_layer_diffs(base_model,chat_model):layer_diffs=[]forbase_layer,chat_layerinzip(base_model.model.layers,chat_model.model.layers):layer_diff={'input_layernorm':calculate_weight_diff(base_layer.input_layernorm.weight,chat_layer.input_layernorm.weight),#'mlp_down_proj':calculate_weight_diff(base_layer.mlp.down_proj.weight,chat_layer.mlp.down_proj.weight),#'mlp_gate_proj':calculate_weight_diff(base_layer.mlp.gate_proj.weight,chat_layer.mlp.gate_proj.weight),#'mlp_up_proj':calculate_weight_diff(base_layer.mlp.up_proj.weight,chat_layer.mlp.up_proj.weight),'post_attention_layernorm':calculate_weight_diff(base_layer.post_attention_layernorm.weight,chat_layer.post_attention_layernorm.weight),'self_attn_q_proj':calculate_weight_diff(base_layer.self_attn.q_proj.weight,chat_layer.self_attn.q_proj.weight),'self_attn_k_proj':calculate_weight_diff(base_layer.self_attn.k_proj.weight,chat_layer.self_attn.k_proj.weight),'self_attn_v_proj':calculate_weight_diff(base_layer.self_attn.v_proj.weight,chat_layer.self_attn.v_proj.weight),'self_attn_o_proj':calculate_weight_diff(base_layer.self_attn.o_proj.weight,chat_layer.self_attn.o_proj.weight)}layer_diffs.append(layer_diff)returnlayer_diffsdefvisualize_layer_diffs(layer_diffs):num_layers=len(layer_diffs)num_components=len(layer_diffs[0])fig,axs=plt.subplots(1,num_components,figsize=(24,8))fig.suptitle(f"{base_model_name}<>{chat_model_name}",fontsize=16)fori,componentinenumerate(layer_diffs[0].keys()):component_diffs=[[layer_diff[component]]forlayer_diffinlayer_diffs]sns.heatmap(component_diffs,annot=True,fmt=".6f",cmap="YlGnBu",ax=axs[i],cbar_kws={"shrink":0.8})axs[i].set_title(component)axs[i].set_xlabel("Layer")axs[i].set_ylabel("Difference")axs[i].set_xticks([])axs[i].set_yticks(range(num_layers))axs[i].set_yticklabels(range(num_layers))axs[i].invert_yaxis()plt.tight_layout()plt.show()layer_diffs=calculate_layer_diffs(base_model,chat_model)visualize_layer_diffs(layer_diffs)
还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection70B 配置文件名称的更改,可以看到从 Llama370B Instruct 到 Llama3.170B Instruct 的变化。
这样的事实摆在眼前,似乎让人不得不信。各路网友也开始发声附和,有人表示自己从一开始就怀疑它是 Llama3,当用德语问模型一些事情时,它却用英语回答。这种行为对于 Llama3非常常见。
还有人奇怪为什么 Reflection70B 模型一开始就得到了如此多的炒作和关注,毕竟第一个谈论它是「顶级开源模型」的人是开发者本人(Matt)。而且更确切地说,模型是微调的。
更有人开始质疑开发者(Matt),认为他只是这家公司(GlaiveAI)的利益相关者,试图通过炒作来增加价值,实际上却对这项技术一无所知。
在被质疑 Reflection70B 的基础模型可能是 Llama3而非 Llama3.170B 时,Matt Shumer 坐不住了,现身进行了澄清,并表示是Hugging Face 权重出现了问题。
就在几个小时前,Matt Shumer 称已经重新上传了权重,但仍然存在问题。同时他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成。
当被问到为何需要重新训练时,Matt Shumer 表示本不需要这样做,但已经尝试了所有方法。无论做什么,Hugging Face 上 Reflection70B 模型都会出现问题,导致离预期中的性能差得远。
当然 Matt Shumer 还面临更多质疑,比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama3而不是 Llama3.1以及基准中有关 LORAing 的问题。
Matt Shumer 一一进行了解释。(以下标引用)
1. 我是一个超级小的投资者(1000美元),只是一次支持性的投资,因为我认为 Sahil Chaudhary 很棒。
2. 至于为什么基础模型是 Llama3,我们不知道。这就是为什么我们从头开始再训练,应该很快完成。
3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验,我们需要弄清楚这一点。
4. 不确定什么是 LORAing,但我们检查了污染,将在下周与405B(或更早)一起发布数据集,到时候可以查看。
至于重新训练后的 Reflection70B 表现如何?我们拭目以待。
马斯克将推出人工智能平台「TruthGPT」:最大限度地寻求真相
据FoxNews报道,亿万富翁埃隆·马斯克说,他将推出一个人工智能(AI)平台,他称之为「TruthGPT」,这显然是对OpenAI的流行聊天机器人ChatGPT的挑战。站长网2023-04-18 09:31:1500007999元起 国人买iPhone 14 Pro需9.5%年收入引热议:你多久才能买?
快科技6月22日消息,今日,一则国人买iPhone14Pro需9.5%年收入”的话题登上微博热搜,引来众多网友热议,截稿前,话题今日阅读量已达9949.8万,2053条讨论。据了解,WorldofStatistics网站日前分享了全球购买iPhone14Pro128GB版本需要花多少钱,并与当地平均年收入进行对比数据。站长网2023-06-23 23:42:500001国家邮政局:今年全国快递业务量已达500亿件
国家邮政局公布数据称,截至5月31日,今年我国快递业务量已达500亿件,比2019年达到500亿件提前了155天,比2022年提前了27天。当前,邮政快递业正在全力迎战“618”年中业务旺季。主要品牌寄递企业大力提升数字化运营水平,优化中转和派送流程,积极调配人力、车辆及航空运力等资源,加快运用全自动分拣、无人仓、无人车、无人机等设备和技术,以提升整体生产服务保障能力。站长网2023-06-01 14:24:440000“未来主义者”李彦宏和他的AI少林寺
在《时代》首次发布的全球百大AI人物中,百度CEO李彦宏获得的评价是:中国最杰出的未来主义者。这种“最杰出”,指的当然是他本人,但多少也有点他本人正在领导的组织。毕竟还是在这份榜单中,还有吴恩达、Anthropic的联合创始人兼CEODarioAmodei等AI大牛,而李彦宏,是他们共同的前老板。站长网2023-09-15 09:16:400001“夫妻店”,占领创业圈
今年4月,“加盟制奶茶第一股”茶百道在港股上市,人们发现,它的7000多家门店是从成都一家“夫妻店”发展而来。已经交表等待上市的沪上阿姨,发迹于10多年前上海人民广场的一家小门脸,夫妻两人都是联合创始人。从深圳成长起来的奈雪的茶,同样由一对夫妇创办,当年两人谈生意谈成了对象,成为创投圈的一段佳话。这让我们感到好奇,我们身边究竟有多少“夫妻店”?0000