反击DeepSeek失败!Llama 4效果不好,Meta承认有问题
今天凌晨1点半,Meta生成式AI领导者Ahmad Al-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。
Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。Meta很快会修复这些漏洞提升性能。同时否认在测试集上进行了预训练。
但Meta在官网发布时特意点名DeepSeek,说他们新开源的Llama4Maverick在代码能力可以比肩其新开源的V3模型,国内不少知名媒体也以此为噱头来写标题。
现在看来Meta首次反击是失败了,期待他们后续优化以及正训练的2万亿参数的教师模型。
以下是Ahmad完整声明:
我们很高兴能开始让大家都用上Llama4。我们已经听说很多人使用这些模型取得了不错的成果。
话虽如此,我们也听到了一些关于不同服务中模型质量参差不齐的报告。由于模型一准备好我们就发布了,所以我们预计所有公开的应用实现都需要几天时间来进行优化调整。我们会继续进行漏洞修复工作,并与合作伙伴完成对接流程。
我们还听到有人声称Llama4在测试集上进行了训练,这纯属无稽之谈,我们绝对不会这么做。据我们的判断,人们所看到的质量差异是由于需要对应用实现进行稳定化处理造成的。
我们相信Llama4模型是一项重大的技术进步,我们期待着与社区合作,充分挖掘其价值。
其实,在Llama4开源当天就有人质疑其性能。其代码能力比Grok3、DeepSeek V3、Sonnet3.5/7差很多。
无论是Scout还是Maverick模型,我使用了详尽的提示词,在实际编码方面似乎都几乎无法使用。
考虑到Meta公司付出的努力,我很惊讶一个4000亿参数的模型(即便它是混合专家模型)表现竟如此糟糕。它与DeepSeekV3”相比差距甚远。
我们对不同平台提供的Scout和Maverick进行了测试,结果发现这两款模型表现都不佳,甚至被参数规模更小的模型比下去了。
在基础编程任务之外,它们就会出错,而且在遵循指令方面能力也很弱。Maverick的排名接近谷歌的Gemini2.5,这一点令人担忧。它们给人的感觉就像是处于GPT-3.5时代的模型。很高兴Meta正在采取措施让情况稳定下来。
能够提前使用Llama4固然很棒,但这里有个关键事实:一个强大的模型,其实际效果取决于它的应用实现情况。
你在实验室里测试的效果,并不等同于用户在实际使用中所体验到的效果。在过度炒作和实际操作之间存在的差距,才是真正需要努力去填补的地方。
鉴于许多运行时环境都是开源的,或许未来在发布产品以免陷入如此混乱的局面之前,你们能够确保那些修复措施已经落实到位?“是你使用方式不对”这种说辞可不大好听。
也有网友质疑Meta刷榜:“质量参差不齐”??我看到的每一项基准测试中,Llama4的表现都糟透了,除非你参考的是LMSYS的“1417eon”基准测试结果。
你们向LMSYS开放了哪个API呢?因为目前LMSYS那边的模型列表中的表现也非常差。
Llama4就是垃圾,你们在这件事上搞砸得太厉害了。与其误导大家,还不如承认错误。不确定在测试集上动手脚这件事是不是真的,但鉴于它在基准测试中的高分以及在现实世界中糟糕的表现,这种可能性似乎很大。
在聊天机器人竞技场的大语言模型排行榜上,Meta公司的Llama4Maverick在编程方面排名第一。
然而,几乎我给出的每一个难的编程提示或中等难度的编程提示,它都无法完成。在编程方面,它比DeepSeek V3-0324、Claude3.5/3.7Sonnet或Gemini2.0Pro差得多。
所以,这位网友也在质疑Meta刷榜的问题。
其实从发布的时间点就能看出来,Meta这次并没有准备好。作为类ChatGPT的开源鼻祖之一,Llama4这么重磅的开源模型,居然放在了美国周六的大晚上发布(国内的周日凌晨3点),这太不符合常规了。
按照他们以往发布的Llama系列模型,一般会放在美国周二、周三早上10点左右。所以,在发布Llama4时他们本身就心虚。
DeepSeek的横空出世给Meta造成了巨大压力,其用户、口碑正在严重流失,他们急需一款重磅产品挽回败局。在今年过年DeepSeek疯狂刷屏那段时间,Meta还特意组建了“作战研究室”来研究其模型。但从最终结果来看,依然不是很理想。
此外,由于关税大战的原因,Meta的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。
笑疯了,AI换装大法让奥特曼都性感起来了。
最近两天,我的X被一个AI虚拟换衣项目给刷屏了。然后,冒出来了各种奇奇怪怪的图片。比如皮衣老黄直接爆改成可爱硬汉。还有整活必备人物特朗普。你别说,特朗普和这衣服的适配度还挺高。我居然觉得生成的图片毫无违和感。接下来出场的,是性感版奥特曼。最好玩还是一个有着一千多万浏览量的帖子,它是这么说的。然后机智的网友就出手了。站长网2024-09-03 15:10:01000050天涨粉1277万,带货近13亿元,董宇辉清空微博还重要吗?
董宇辉又双叒上热搜了,这次是因为清空微博。2月27日上午,董宇辉突然清空个人微博账号的内容,并在当晚的直播中解释说这是他的“匹夫之怒”,“我知道我这么做没用,但是我只是这么做了”。此前,因为在直播时拒绝讲解女士内衣内裤,董宇辉被部分网友吐槽没有职业操守,“不能讲你不要上架这个商品啊”。其实按照业内相关规定,女性用品最好由女主播来讲解。此前李佳琦带货女士内裤时,也是由女助播来完成产品介绍工作。站长网2024-02-29 18:15:5800001000万上下文!新开源多模态大模型,单个GPU就能运行
今年2月初,谷歌发布的Gemini2.0Pro支持200万上下文,震惊了整个大模型领域。仅过了2个月,Meta最新开源的Llama4Scout就将上下文扩展至1000万,整整提升了5倍开启千万级时代。对于这么大的窗口大家可能没什么概念,普通版本的《战争与和平》大概有1300页100万字左右,Llama4Scout可以一次性解读这本书。0000Silo AI面向欧洲推新开源语言模型“Poro” 涵盖欧盟24种语言
**划重点:**1.🚀SiloAI总部位于芬兰赫尔辛基,推出Poro,旨在提升欧洲语言的多语言人工智能能力。2.🤖Poro是首个计划覆盖欧盟所有24种官方语言的开源模型,由SiloAI的SiloGen和图尔库大学的TurkuNLP研究小组开发。3.🌍Poro使用跨语言训练方法,利用来自高资源语言(如英语)的数据,旨在解决为欧洲低资源语言训练性能卓越的核心挑战。0002深入剖析《2023 年人工智能现状报告》:AI 大语言模型和未来挑战
站长之家(ChinaZ.com)10月19日消息:人工智能领域年度报告作为一个重要的基准,为迅速发展的人工智能领域提供了明确的方向和洞察力。其全面的分析一直为研究人员、行业专业人员和政策制定者提供了宝贵的见解。今年的报告着重强调了大型语言模型(LLMs)领域的一些显著进展,强调了它们日益增长的影响力以及对AI社区的广泛影响。图片来自stateof.aiGPT-4的的主导地位站长网2023-10-19 17:22:140001