Meta发布全新Megabyte模型 比Transformer快4成
站长网2023-05-30 14:55:390阅
最近,Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题,而且速度比它还快4成!
目前,Transformer架构比较流行,但是存在两个重要的缺陷:一方面,自注意力成本随着输入和输出字节长度的增加而迅速增加,如音乐、图像或视频文件通常包含数兆字节,而大型解码器通常只使用几千个上下文标记;另一方面,前馈网络单独对字符组或位置进行操作是难以实现可扩展性的,这是由于在每个位置的基础上会带来很多计算开销。
而Megabyte模型则将输入和输出序列分成patch而不是单个的token。这种架构对于多数任务而言字节预测都相对容易,比如给定前几个字符预测完成单词等,这意味着大型网络中每个字节都是不必要的,并且内部预测可以使用更小的模型进行。这种方法解决了当今AI模型面临的可扩展性挑战,Megabyte模型的patch系统允许单个前馈网络在包含多个token的patch上运算,有效解决了自注意力缩放问题。
另外,在运算效率方面,与等大的Transformers和Linear Transformers相比,Megabyte在固定模型大小和序列长度范围内使用更少的token,这在相同的计算成本下允许使用更大的模型。
总的来说,这些改进使我们能够在相同的计算成本下训练更大、性能更好的模型,并且可以扩展到非常长的序列,同时在部署期间提高生成速度。综上所述,Megabyte模型的出现提供了一种新的、高效的方法来解决AI模型的发展中出现的一些问题。
论文链接:https://arxiv.org/abs/2305.07185
0000
评论列表
共(0)条相关推荐
音乐ChatGPT时刻来临!Suno V3秒生爆款歌曲,12人团队创现象级AI
【新智元导读】以后的爆款歌曲可能要被AI承包了!最近,AI初创公司Suno震撼推出V3音乐生成模型,惊艳了全世界。只需几秒,即可生成2分钟动听的音频。网友纷纷表示:音乐的ChatGPT时刻来临!「人类大概很快就会进入,只听自己用AI做曲子的时代」!最近,AI初创公司SunoAI重磅推出了第一款可制作「广播级」的音乐生成模型——V3,一时间在网上掀起轩然大波。站长网2024-03-25 11:25:45000100后华人大模型创业,组队7人挑战langchain,硅谷顶级创始人给了天使投资
2个华人牵头拉起一支7人队伍,创业大模型???没错,Cortex就是这样一个项目,被曝还拿下了还拿下了Zoom系,Getty家族和快手系的天使投资。这是一个集成诸多大模型API后,让大模型更懂你的中间件。主打特色有二:一是外接私有数据,包括Notion、Slack、GoogleDrive等,做特定领域的私有版GPT;另一件事是在每个企业内部,打造千人千面的Copilot。站长网2023-07-30 10:26:160000OpenAI工程师年薪达80万美元,展现稀缺技能巨大市场价值
划重点:👉OpenAI的首席执行官SamAltman因ChatGPT的创始人被撤职,数百名员工威胁辞职,最终OpenAI为了留住这些技术行业中最受重视的员工,重聘了Altman作为首席执行官。这凸显了技术行业最受重视的员工目前具有的巨大影响力。站长网2023-11-23 14:27:400001中消协规范网约车聚合平台:不得以不正当价格扰乱市场
中消协宣布,将围绕交通运输部等五部门,开展关于规范管理网约车聚合平台有关通知社会监督。中消协称,出行消费是消费者的重要生活消费场景。针对网约车聚合平台的兴起及快速发展,根据五部门《通知》和消费者权益保护法、电子商务法等法律法规,中国消费者协会认为相关网约车聚合平台及合作网约车平台公司应依法维护消费者合法权益,不断优化出行消费体验,同时呼吁广大消费者共同做好网约车聚合平台社会监督工作。站长网2023-08-21 16:18:440000