智源团队推出「生长策略」 解决大模型训练算力成本过高问题
站长网2023-09-21 09:13:571阅
近日,智源研究院联合中科院计算所、南洋理工大学(新加坡)、电子科技大学(成都)、哈尔滨工业大学(深圳)的研究团队共同提出了一种「生长策略」(growth strategy),以解决大模型算力成本极高的问题。
研究团队基于「生长策略」逐步构建了一个具有1010亿参数的FLM-101B大模型。实际训练结果显示,只需约10万美元(约70万人民币)的算力成本,就能成功训练出一个效果和GPT-3、GLM-130B可比的千亿大模型。
「生长策略」的核心思想是让模型在训练过程中的参数量可以随着训练进行逐步扩展,从较小的参数规模扩展到更大的参数规模。研究团队利用这种策略成功地训练出了 FLM-101B 大模型,并且通过评测发现,该模型在知识能力和智能水平方面具有竞争力。
此外,研究团队还提出了一种基于 IQ 的评测方法,以更全面、客观地评估大模型的智力水平。他们从四个维度对大模型进行了 IQ 测试:符号评测、规则理解、模式挖掘和抗干扰评测。实验结果显示,FLM-101B 在这些评测任务上表现出了非常好的能力。
FLM-101B模型地址:
https://huggingface.co/CofeAI/FLM-101B
0001
评论列表
共(0)条相关推荐
阿联酋科技集团G42推出开源阿拉伯语AI模型Jais
文章概要:1.一群工程师、研究人员和一家硅谷芯片公司合作,发布了先进的阿拉伯语软件,可以为生成式AI应用提供支持。2.新的大语言模型Jais包含130亿参数,是从大量阿拉伯语和英语数据中训练出来的。3.Jais将以开源许可方式提供。最近,一群工程师、研究人员以及硅谷的芯片公司CerebrasSystems合作,发布了一款先进的阿拉伯语软件,可为生成式AI应用提供支持。站长网2023-08-30 15:22:030000长城汽车公布Q3季度财报:总收入超过1195亿元 累计卖出89.63万台
快科技10月27日消息,长城汽车股份有限公司今日公布了2023年第三季度报告。据悉,长城汽车该季度营业总收入约为495.32亿元,同比增幅为32.63%,前三季度实现营业收入约1195.04亿元,同比增长20.13%。其中,该季度归属于上市公司股东的净利润约为36.34亿元人民币,同比增幅为41.94%;前三季度累计净利润约为49.95亿元人民币,同比减幅为38.79%。0000tldraw发布病毒式应用 使用GPT-V自动生成网页代码
近日,tldraw发布了一款引人注目的病毒式应用程序,为用户提供了一种全新的软件设计体验。这款应用程序允许用户利用类似绘画的界面迅速设计软件,并通过其强大的GPT-V引擎自动生成相应的Web代码。这一创新功能不仅表现出色,生成的代码健壮可靠,而且还支持自然语言指令,为用户提供了更加灵活和便捷的操作方式。站长网2023-11-23 12:10:050001WPS被指套娃式收费 负责人回应: AI功能福利期已到
站长之家(ChinaZ.com)5月10日消息:近日,针对消费者普遍关注的WPS套娃式收费问题,WPS官方负责人做出了积极回应。据了解,WPS的AI功能此前作为会员用户的福利之一,随着其商业化的推进,福利期已告一段落。WPS方面表示,WPSAI作为一项全新的会员服务,目前正在进行灰度测试,并作为付费升级选项提供给用户。站长网2024-05-10 17:23:060000500多名AI专家联合签署公开信,呼吁出台反深度伪造法律
**划重点:**1.💬500多名人工智能领域专家签署公开信,敦促出台对AI生成的冒充或深度伪造的严格法规。2.🚨公开信呼吁全面刑事化深度伪造儿童性虐待材料,强调政府应在整个供应链上实施义务以阻止深度伪造的传播。3.🌐这不是对此类法规的第一次呼吁,欧盟多年来一直在讨论,并在本月早些时候正式提出。专家们或许受到欧盟的决心以及一些具体威胁的驱使而发声。站长网2024-02-22 10:45:240000