DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器
核心要点:
1. 最近的研究表明,卷积神经网络(ConvNets)在大规模数据集上可以与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。
2. 研究团队使用NFNet模型在巨大的JFT-4B数据集上进行了训练,发现随着计算资源的增加,ConvNets的性能可以与视觉变换器相匹敌,达到了令人印象深刻的ImageNet Top-1准确度。
3. 该研究突出了计算资源和可用于训练的数据量是影响模型性能的主要因素,以及ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。
最新研究表明,卷积神经网络(ConvNets)在大规模数据集上能够与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。在计算机视觉领域,ConvNets一直以来都是在各种基准测试中取得卓越性能的标准。然而,近年来,视觉变换器逐渐崭露头角,逐渐超越了ConvNets。有许多专家认为ConvNets在小到中等规模数据集上表现出色,但在面对大规模数据集时,视觉变换器占据了优势。
论文地址:https://arxiv.org/pdf/2310.16764.pdf
一项由Google DeepMind的研究团队进行的新研究挑战了视觉变换器在规模上具有卓越扩展能力的普遍观点。该团队对一种纯粹的ConvNet架构进行了全面评估,这种架构被称为NFNet模型,该模型在大规模数据集上进行了预训练。研究结果显示,ConvNets在大规模数据集上确实可以与视觉变换器相匹敌。
研究团队在巨大的JFT-4B数据集上训练了各种深度和宽度不同的NFNet模型。这个数据集包含大约40亿张图像,涵盖了3万个类别。在对预训练的NFNet模型进行50个时代的微调后,ImageNet Top-1误差在与预训练时使用的计算资源的直接相关性下持续改善。最大的模型,被称为F7 ,在可比较的计算预算下达到了与预训练的视觉变换器报告的性能相当的ImageNet Top-1准确度,达到了惊人的90.3%。
为了更清楚地了解验证损失与预训练计算之间的关系,研究团队绘制了每个模型所需计算预算结束时的验证损失。这个练习揭示了一个明显的线性趋势,与支配验证损失和预训练计算的对数缩放定律一致。随着计算资源的增加,最佳模型大小和训练时期的预算也随之增加。此外,人们还注意到,调整ConvNets的一个可靠经验法则是按比例调整模型大小和训练时期的数量。
有趣的是,研究人员还调查了NFNet系列的三种不同模型(F0、F3、F7 )在一系列时期预算下的最佳学习率。他们的研究结果表明,当受到较小的时期预算限制时,所有这些模型都表现出相似的最佳学习率(约为1.6)。然而,随着时期预算的增加,最佳学习率减小,较大的模型经历了更快的下降。
总的来说,这项研究强调了在计算机视觉领域,合理设计的模型性能的主要因素是计算资源和可用于训练的数据量。从这项工作中可以明显看出,ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。这些结果突显了同时扩展计算和数据资源的重要性,为计算机视觉研究的未来带来了新的启示。
京东紧急驰援西藏震区 刘强东:全国任何地方发生灾难 捐物资无需汇报
快科技1月7日消息,据中国地震台网正式测定,今天9时5分在西藏日喀则市定日县发生6.8级地震,震源深度10公里,截至目前,地震已造成90余人遇难、130人受伤。据京东物流黑板报”公众号,在地震灾害发生的第一时间,京东集团积极响应,成立应急响应专班,快速启动应急救援预案,从震区附近的仓库中紧急调拨饮用水、食品、御寒衣物、帐篷、应急电源等急需物资,京东物流以专人专车方式运往灾区。0000百度发布小度学习机K16:搭载文心大模型 售价2299元
百度旗下人工智能语音助手小度正式发布小度学习机K16,K16是一款全面升级的学习机器人产品。目前,小度学习机K16已经在小度商城及各大电商平台开启预售,售价2299元。它具有以下几个方面的升级:站长网2024-01-09 09:08:110001缓解字节 AI 焦虑的超级应用:剪映 or 豆包?
张一鸣把抖音最重要的两个人物,都放在AI相关的核心位置。今年2月,OpenAI发布视频生成模型Sora过去9天后,张楠放下抖音CEO的位置,聚焦剪映。看上去这是一个舍大取小的举动,甚至有被流放之嫌。事实是,和陈林当初负责教育业务一样,张楠在为字节攻克新高地。0002字节跳动通报实习生改代码事件:已与其解除实习协议 并同步至其就读学校处理
快科技11月5日消息,综合国内媒体报道,字节跳动内部发布了年内第四份《企业纪律与职业道德委员会通报》。通报显示,103人因违法违规行为被辞退(含外包及实习生),其中11人因涉嫌构成刑事犯罪,被公安机关立案侦查。此外,通报中还披露了近期受到关注的实习生破坏模型训练事件。0000研究表明:大语言模型从人类反馈中学得更快更智能
划重点:1.🧠大型语言模型(LLMs)通过在线上下文学习展现了广泛的机器学习能力,使非专家能够通过语言指令编写机器人代码,根据反馈修改行为或组合执行新任务。2.🔄通过LanguageModelPredictiveControl(LMPC)框架,研究团队成功通过对机器人代码编写LLMs进行微调,提高其适应人类输入的效率,从而加速学习过程。站长网2024-02-20 16:11:070000