Meta发布全新Megabyte模型 比Transformer快4成
站长网2023-05-30 14:55:390阅
最近,Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题,而且速度比它还快4成!
目前,Transformer架构比较流行,但是存在两个重要的缺陷:一方面,自注意力成本随着输入和输出字节长度的增加而迅速增加,如音乐、图像或视频文件通常包含数兆字节,而大型解码器通常只使用几千个上下文标记;另一方面,前馈网络单独对字符组或位置进行操作是难以实现可扩展性的,这是由于在每个位置的基础上会带来很多计算开销。
而Megabyte模型则将输入和输出序列分成patch而不是单个的token。这种架构对于多数任务而言字节预测都相对容易,比如给定前几个字符预测完成单词等,这意味着大型网络中每个字节都是不必要的,并且内部预测可以使用更小的模型进行。这种方法解决了当今AI模型面临的可扩展性挑战,Megabyte模型的patch系统允许单个前馈网络在包含多个token的patch上运算,有效解决了自注意力缩放问题。
另外,在运算效率方面,与等大的Transformers和Linear Transformers相比,Megabyte在固定模型大小和序列长度范围内使用更少的token,这在相同的计算成本下允许使用更大的模型。
总的来说,这些改进使我们能够在相同的计算成本下训练更大、性能更好的模型,并且可以扩展到非常长的序列,同时在部署期间提高生成速度。综上所述,Megabyte模型的出现提供了一种新的、高效的方法来解决AI模型的发展中出现的一些问题。
论文链接:https://arxiv.org/abs/2305.07185
0000
评论列表
共(0)条相关推荐
AI造富能力一流
3月26日消息,ChatGPT火爆引发的全球“大模型”热,将AI的能力推向新高度,业内对于AI落地应用商业化的前景充满期待。2024年被业内大佬们誉为大模型落地元年。然而,不管AI商业化落地进展如何,富豪们已经通过AI赚到了钱,而打工人想靠AI赚钱似乎也有了一些路径。胡润富豪一半以上新增财富来自AI站长网2024-03-26 23:10:060000高通和小米在全球范围展示移动端米级定位:提供卓越用户体验
高通技术公司和小米公司在德国利用搭载第一代骁龙8移动平台的小米12TPro成功进行了米级定位验证,并宣布了这一消息。此前小米11Pro/Ultra已率先在中国市场实现该功能的商用。站长网2023-04-13 15:03:110001网信办:App青少年模式将升级为未成年模式
6月29日,中央网信办、国家网信办表示,已经研究起草了《移动互联网未成年人模式建设指南》,正在征求有关方面意见,将适时向社会公开。下一步将着重从法制建设、专项行动、日常管理、模式建设等方面进一步提升未成年人网络保护工作水平。站长网2023-06-30 08:40:190000Facebook 联合创始人:英国脱欧意味着其在人工智能领域有望成为全球领导者
站长之家(ChinaZ.com)10月24日消息:Facebook的联合创始人、软件公司Asana的首席执行官DustinMoskovitz近日表示,英国脱欧使得其能够在人工智能(AI)领域独立发展,并有望成为全球领导者。他指出,布鲁塞尔对于监管的严格态度意味着「英国脱离欧盟是更好的选择」。站长网2023-10-24 23:01:510000李飞飞吴恩达等2024年AI十大预测 AI智能体将在一年内大爆发
要点:比尔盖茨、李飞飞、吴恩达等预测AI将在全球迅速普及,带来多模态模型、新功能,并引发关于使用和监管技术的讨论。吴恩达认为人工智能监管可能会阻碍技术发展,主张良好监管,但反对低质量的监管,认为无监管可能比糟糕的监管更好。斯坦福HAI主任李飞飞与团队发布预测,强调人工智能对知识工作者、虚假信息、GPU短缺等领域的影响,预测代理将在2024年兴起。站长网2023-12-20 14:54:310000