Meta发布全新Megabyte模型 比Transformer快4成
站长网2023-05-30 14:55:390阅
最近,Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题,而且速度比它还快4成!
目前,Transformer架构比较流行,但是存在两个重要的缺陷:一方面,自注意力成本随着输入和输出字节长度的增加而迅速增加,如音乐、图像或视频文件通常包含数兆字节,而大型解码器通常只使用几千个上下文标记;另一方面,前馈网络单独对字符组或位置进行操作是难以实现可扩展性的,这是由于在每个位置的基础上会带来很多计算开销。

而Megabyte模型则将输入和输出序列分成patch而不是单个的token。这种架构对于多数任务而言字节预测都相对容易,比如给定前几个字符预测完成单词等,这意味着大型网络中每个字节都是不必要的,并且内部预测可以使用更小的模型进行。这种方法解决了当今AI模型面临的可扩展性挑战,Megabyte模型的patch系统允许单个前馈网络在包含多个token的patch上运算,有效解决了自注意力缩放问题。

另外,在运算效率方面,与等大的Transformers和Linear Transformers相比,Megabyte在固定模型大小和序列长度范围内使用更少的token,这在相同的计算成本下允许使用更大的模型。
总的来说,这些改进使我们能够在相同的计算成本下训练更大、性能更好的模型,并且可以扩展到非常长的序列,同时在部署期间提高生成速度。综上所述,Megabyte模型的出现提供了一种新的、高效的方法来解决AI模型的发展中出现的一些问题。
论文链接:https://arxiv.org/abs/2305.07185
0000
评论列表
共(0)条相关推荐
抖音、快手后 腾讯宣布成为2024巴黎奥运会持权转播商
快科技6月19日消息,今晚,腾讯宣布,中央广播电视总台与腾讯就2024巴黎奥运会视频点播及短视频版权达成合作意向。用户将可通过腾讯视频、腾讯体育、微信、腾讯新闻、腾讯网、QQ、QQ浏览器、微视等渠道,观看本届奥运赛事的点播与短视频内容,以及腾讯的自制节目。站长网2024-06-21 21:30:380000理想周销量达0.78万辆 稳居销量第一 李想:平淡的一周
快科技7月25日消息,没有谁能限制理想汽车爆卖了,如果有,那就是产能。理想汽车发文称:在刚刚过去的2023年第30周(7.17-7.23),理想汽车的周销量达0.78万辆,稳居中国新势力品牌销量榜首。截至7月23日,理想汽车本月销量已达2.46万辆,持续领跑新势力。在豪华品牌排名中,理想汽车的上周销量及7月累计月销量,均排名中国市场豪华品牌销量第四,是榜单中排名最高的中国品牌。站长网2023-07-26 09:59:210000北大等发布智能体Jarvis-1 轻松玩转“我的世界”
要点:北大、北邮、UCLA和BIGAI联合发布的智能体Jarvis-1在开放世界游戏「我的世界」中取得重大突破,采用多模态记忆增强多任务处理,表现出卓越的规划和控制能力。Jarvis-1通过多模态感知、记忆增强和终身学习,在「我的世界」游戏中展现出近乎完美的性能,成功完成包括合成钻石镐等复杂任务,超越了现有方法的性能水平。站长网2023-12-08 15:11:280001跃然创新在「AI+毛绒玩具」中寻找错位竞争机会|1000个创新案例
不久前,一款2017年上市的闪电麦昆智能玩具在抖音上迅速走红。这款闪电麦昆的眼睛是一块LED屏幕,嘴巴则使用了柔软的橡胶材质,可以在APP上进行对话及语音的设置,对《赛车总动员》中闪电麦昆的说话表情和动作进行了完美复现。站长网2024-10-23 09:11:050000字节回应收缩游戏业务:保留部分创新型游戏项目
据澎湃新闻报道,针对“大规模收缩游戏业务”一事,字节跳动旗下朝夕光年方面回应称,朝夕光年确实将进行大规模业务收缩:对已上线的且表现良好的游戏,会在保证运营的情况下寻求剥离;对还未上线的项目,除少量创新项目及相关技术项目外,均会关停。朝夕光年还表示,游戏业务确实会有方向和组织调整,将更加聚焦部分创新型游戏及相关技术的探索。但同时,也会做好已上线产品的持续运营,充分保障玩家的权益。站长网2023-11-27 14:17:450000