贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样
Transformer大模型尺寸变化,正在重走CNN的老路!
看到大家都被LLaMA3.1吸引了注意力,贾扬清发出如此感慨。
拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:
在ImageNet时代,研究人员和技术从业者见证了参数规模的快速增长,然后又开始转向更小、更高效的模型。
听起来,是不是和GPT哐哐往上卷模型参数,业界普遍认同Scaling Law,然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma2B如出一辙?
贾扬清笑称,“这是前大模型时代的事儿,很多人可能都不咋记得了:)”。
而且,贾扬清不是唯一一个感知到这一点的人,AI大神卡帕西也这么觉得:
大模型尺寸的竞争正在加剧……但是卷的方向反着来了!
模型必须先追求“更大”,然后才能追求“更小”,因为我们需要这个过程,帮咱把训练数据重构成理想的、合成的格式。
他甚至拍着胸脯打赌,表示我们一定能看到又好、又能可靠地思考的模型。
而且是参数规模很小很小的那种。
连马斯克都在卡帕西的评论区连连称是:
以上,大概可以称之为“大佬所见略同”。
展开说说
贾扬清的感慨,要从只在最强王座上短暂待了一天的LLaMA3.1说起。
那是首次实现“最强开源模型=最强模型”,不出意外,万众瞩目。
However,贾扬清在这个时候提出了一个观点:
“但我认为,行业会因小型垂直模型而真正蓬勃发展。”
至于啥是小型垂直模型,贾扬清也说得很清楚,比如以Patrouns AI的Iynx(该公司的幻觉检测模型,在幻觉任务上超过GPT-4o)为代表的那些很棒的中小模型。
贾扬清表示,就个人喜好而言,他本人是非常喜欢千亿参数模型的。
但现实情况里,他观察留意到,7B-70B参数规模之间的大模型,大家用起来更顺手:
它们更容易托管,不需要巨大的流量即可盈利;
只要提出明确的问题,就能得到质量还不错的输出——与和之前的一些看法相反。
与此同时,他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。
“如果我的理解是正确的,那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点,“即在现实世界中,使用适用的、具有成本效益、且仍然强大的模型。”
于是乎,贾扬清简单梳理了CNN的发展历程。
首先,是CNN的崛起时代。
以AlexNet(2012)为起点,开启了大约三年的模型规模增长时期。
2014年出现的VGGNet就是一个性能和规模都非常强大的模型。
其次,是缩小规模时期。
2015年,GoogleNet把模型大小从“GB”缩小到了“MB”级别,即缩小了100倍;但模型性能并没有因此骤减,反而保持了不错的性能。
遵循类似趋势的还有2015年面世的SqueezeNet模型等。
然后的一段时间,发展重点在追求平衡。
后续研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一个适中的模型规模。
值得注意的是,模型规模的控制并没有带来计算量的减少——其实,大伙儿都愿意投入更多的计算资源,寻求一种“同等参数但更高效”的状态。
紧接着就是CNN在端侧起舞的一段时期。
举个例子,MobileNet是谷歌在2017年推出的一项有趣的工作。
有趣就有趣在它占用的资源超级少,但是性能却非常优异。
就在上周,还有人跟贾扬清提到:“Wow~我们现在还在用MobileNet,因为它可以在设备上运行,而且在出色的特征嵌入泛化(Feature Embedding Generality)。”
最后,贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图:
并再一次发出自己的疑问:
大模型尺寸,会遵循与CNN时代相同的趋势来发展吗?
网友怎么看?
其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。
当上述几位表达出这样的观点后,立马有人点头如捣蒜,还拿出了一些别的类似例子,证明他们看到了相同的趋势。
有人立马跟上:
我这儿有个新的正面例子!Gemma-2就是把27B参数大小的模型知识蒸馏成更小的版本。
还有网友表示,开发更大的模型,意味着能给后续几代更小、更垂直的模型的训练“上强度”。
这个迭代过程最终会产生所谓的“完美训练集”。
这样一来,较小的大模型在特定领域,能与现在参数巨大的大模型一样聪明,甚至更聪明。
一言以蔽之,模型必须先变大,然后才能变小。
大多数讨论此观点的人,还是对这个趋势比较认同,有人直言“这是一件好事,比‘我的模型比你的模型大’参数竞赛更实用和有用。”
但是,当然了!
翻遍网络评论区,也有人发出不同的声音。
比如下面这位朋友就在贾扬清推文底下留言:
Mistral Large(背后公司Mistral AI)、LLaMA3.1(背后公司Meta)和OpenAI,持有最强竞争力模型的公司,目前可能都正在训练更大的模型。
我没发现有“更小型号模型搞定技术突破”的趋势哟。
面对这个问题,贾扬清倒也及时回复了。
他是这么说的:“没错!我说大模型尺寸可能在走CNN的老路,绝对不意味着号召大家停止训练更大的模型。”
他进一步解释道,这么说的本意是,随着技术(包括CNN和大模型)落地实践越来越广,大家已经开始越来越关注性价比更高的模型了。”
所以,或许更高效的小·大模型,能够重新定义AI的“智能”,挑战“越大越好”的假设。
AI视野:星火大模型V3.0发布;B站测试推出“AI视频总结”功能;高通发布骁龙8Gen3;苹果计划每年砸10亿美元搞AI
🤖📈💻💡大模型动态科大讯飞星火认知大模型V3.0正式发布在今日的2023科大讯飞全球1024开发者节上,科大讯飞宣布,讯飞星火认知大模型V3.0正式发布,目前星火大模型已整体超越ChatGPT。【AiBase提要】1.科大讯飞宣布发布讯飞星火认知大模型V3.0,超越ChatGPT。2.讯飞星火3.0标志着通用模型,要对标ChatGPT3.5,中文超越,英文相当。站长网2023-10-25 00:56:220000OpenAI CEO表示,国际机构应该监管“最强大”的AI,确保合理安全
划重点:-OpenAI首席执行官SamAltman表示,他热衷于与国际机构一起监管人工智能。-他认为,不久的将来,前沿人工智能系统有能力造成重大全球伤害,需要由“国际机构监管最强大的系统并确保合理安全性”。-Altman认为,找到适当的监管水平将是一个平衡的过程,需要避免过度监管或不足监管。站长网2024-05-13 10:06:370000OceanBase数据库炸场!性能完全不输ClickHouse
要点:OceanBase数据库发布里程碑版本4.2.1LTS,具备强大的OLTP核心功能,性能提升显著。该版本支持仲裁无损容灾,实现RPO=0,并展示了与ClickHouse相媲美的列存能力。OceanBase的产品战略首次浮出水面,以一体化解决数据库使用复杂度,致力于实现“一个数据库解决80%的问题”。站长网2023-11-17 16:08:400000卢伟冰:目前AI手机只是有AI功能 小米澎湃OS2.0才是真正的AI手机
快科技8月23日消息,AI手机成为当下热门题材,各大厂商都号称最新推出的智能手机带AI功能。对于AI手机”,卢伟冰分享了自己的观点:到目前发布的号称AI手机的都是AIFeature手机,也就是用AI的技术做了一些AI功能。在卢伟冰看来,真正的AI手机是搭载基于AI大模型重构的操作系统。小米澎湃OS2.0就承担这一使命!澎湃OS是小米在去年10月份发布的系统,正式接替MIUI。站长网2024-08-27 07:25:210001单场GMV超千万,游戏厂商攻入直播电商
游戏厂商们也开始涌入直播间带货了。近日,《英雄联盟》和《穿越火线》纷纷开启了直播带货首秀,且销售额均超千万。直播间的花式整活,也让相关话题引发了全网讨论。实际上,不少游戏厂商早已悄悄入局直播带货,售卖游戏礼包和游戏设备等。直播间正成为游戏厂商的重要宣发阵地。只是,从目前来看,游戏厂商的直播带货还处于摸着石头过河的阶段......游戏厂商直播卖货“3、2、1,上链接。”站长网2024-06-29 16:22:470001