AI圈头条!谷歌Transformer开山论文惊天「翻车」
站长网2023-05-10 10:02:271阅
AI圈大头条!谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文 《Attention Is All Your Need》竟然出现图与代码不一致的问题。
今天,谷歌的开创性论文《Attention Is All Your Need》中变压器架构的原始图表被发现是不正确的,LayerNorm处于错误的位置。然而,一篇新论文表明,将Pre-LN和Post-LN结合起来可以解决梯度爆炸和消失的问题。
论文地址:https://arxiv.org/abs/1706.03762
代码地址:
https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e
据悉,Transformer架构是人工智能的基石,自2017年发表以来,该论文已被引用超过7万多次。在图表中发现错误引发了对该领域其他开创性论文准确性的质疑。
图中的错误可能导致转换器体系结构的不正确实现,这可能会影响使用它构建的模型的性能。
关于使用Pre-LN还是Post-LN的讨论正在进行中,新论文中提出的两种方法的结合可能会导致人工智能模型开发的进一步发展。
0001
评论列表
共(0)条相关推荐
董明珠谈35岁找不到工作:人才应当被充分利用
近日,格力电器董事长董明珠在一次公开场合中表达了对招聘35岁员工的支持态度。她指出,35岁的员工如果具备良好的能力和经验,没有理由不予以录用。董明珠强调,35岁的员工通常拥有丰富的工作经验,且预计能在公司服务20年,这样的人才应当被充分利用。站长网2024-09-05 05:40:180000华盛顿大学推高效大模型调优方法“代理调优”
要点:1、代理调优方法无需接触模型的内部权重。2、通过对比小型调整模型和未调整模型的预测结果来引导基础模型的预测。3、代理调优方法能够在解码时更好地保留训练知识。华盛顿大学推出更高效的大模型调优方法“代理调优”,该方法通过对比小型调整模型和未调整模型的预测结果来引导基础模型的预测,实现对模型的调优而无需接触模型的内部权重。站长网2024-01-24 09:26:500000会员暂停后也播放全屏广告 网友吐槽:爱奇艺回应让人更无奈
快科技10月5日消息,近日有网友发帖称,爱奇艺会员暂停后播放全屏广告真是忍不了,对此官方也进行回应。有网友发视频称,自己身为爱奇艺的会员,但在观看视频的过程中点击暂停想要观察画面,暂停后却出现了全屏的广告,被暂停的视频仅占屏幕小小一角,根本无法看清。随后,爱奇艺客服表示:爱奇艺会员特权仅减免部分视频前面的广告,在使用期间仍会遇到其他形式的广告可以点击关闭和跳过之类的按钮。0000上传速率可达273Mbps!小米与高通等联合测试5G新上行技术
快科技1月23日消息,据媒体报道,小米与高通、沃达丰在欧洲共同测试了最新的5G上行技术,峰值上传速度达到了273Mbps。在联合声明中三家公司表示,此举涉及将沃达丰的独立组网(SA)5G与高通最新的骁龙8Gen3芯片,和小米的下一代旗舰智能手机相结合,据称是欧洲首个此类测试。通过使用这三个元素来测试先进上行技术,能够实现高达273Mbps的峰值上传速度。0001薇娅公司发布AI数字人直播业务 直播成本降至数千元
谦寻(杭州)控股有限责任公司旗下子公司谦语智能和羚客分别发布了最新的人工智能应用成果——AI数字人直播业务和一站式AI智能直播综合平台。站长网2023-08-09 16:00:390001