苹果AIM自回归视觉模型验证性能与模型规模有关
要点:
1. 随着容量或预训练数据量的增加,模型性能不断提升。
2. 论文证实自回归训练对于图像模型学习表征能力具有扩展性。
3. 自回归目标足以满足视觉特征的训练要求,且没有饱和的迹象。
苹果公司的研究者通过自回归图像模型(AIM)验证了视觉模型“参数越多性能越强”的规律,进一步证明随着容量或预训练数据量的增加,模型能不断提升性能。AIM能有效利用大量未经整理的图像数据,训练方法和稳定性与最近的大型语言模型(LLM)类似。这一观察结果与之前关于扩展大型语言模型的研究结果是一致的。
虽然本文实验所使用的模型规模有限,还需进一步探索是否能在更大参数量级的模型上验证此规律。研究者使用的预训练目标遵循应用于图像 patch 序列的标准自回归模型,通过一系列实验和研究,验证了模型容量可以轻松扩展到数十亿个参数,同时对下游任务有很好的性能。
项目地址:https://top.aibase.com/tool/aim
此外,研究者对自回归目标训练 ViT 模型的多方面进行了探讨,并且重新审视了之前的工作。研究者的实验报告显示,在整个训练过程中,优化目标直接带来更好的下游性能,而随着模型容量的增加,损失值和下游任务的准确性都有所提高。这一观察结果与在 LLMs 中观察到的趋势一致,反映了优化目标会直接带来更好的下游性能。
在 AIM 的设计参数中,除了扩展宽度,研究者还特别采用了一种简单设计,使用多层感知机块,独立地对每个 patch 进行处理。研究者同时强调,研究的模型规模有限,对更大参数量级的模型上验证此规律还有待进一步探索。
论文的实验结果证明了视觉模型同样遵循「参数越多性能越强」的规律,自回归训练对图像模型具有很好的扩展性,并能够满足视觉特征的训练要求。对未来图像模型性能提升和优化提供了新的研究方向和思路。
同系列最强!老外实测iPhone 16全系续航:Plus机型成最大赢家
快科技10月20日消息,苹果一直宣称iPhone16ProMax拥有整个系列最长的电池续航时间,但最新的测试结果却显示并非如此。PhoneBuff对iPhone16系列的四款机型进行了全面的电池续航测试,结果显示非Pro版的iPhone16Plus才是续航最长的机型。站长网2024-10-20 13:35:390000特斯拉Cyberquad玩具车今日开售 售价11990元
特斯拉中国官网今天上午10点正式上线销售Cyberquad玩具车,这款玩具车的灵感来自于特斯拉标志性的Cybertruck设计语言,具有锂离子电池供电、续航里程可达13公里、最高时速为8km/h等特点,适合8-12岁的儿童使用。站长网2023-07-14 16:20:410000阿里魔搭社区推出视频生成3D物体能力 可免费体验
最近,阿里达摩院旗下魔搭社区推出了一项新功能,可以通过手机环拍物体1分钟视频生成3D模型,这个过程完全自动化,大约一个小时就能完成构建。目前,这项服务在魔搭的创空间上完全免费,操作简单。用户只需注册并登录魔搭平台,进入创空间页面,就可以体验这项功能。据介绍,视频转3D的技术实现链路,整个方案主要包含五大模块,分别是:检测和分割、神经重建、纹理贴图、模型简化、纹理烘焙。站长网2023-09-01 14:17:200000Meta发布全新Megabyte模型 比Transformer快4成
最近,Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题,而且速度比它还快4成!站长网2023-05-30 14:55:390000新闻行业高管对谷歌 AI 「搜索生成体验」的影响表示担忧:近 40% 的流量来自谷歌
据《华尔街日报》(WSJ)周四(12月14日)报道,谷歌将其「搜索生成体验」人工智能(AI)工具整合进搜索功能,突显了媒体公司依赖这家科技巨头将其报道传达给读者所面临的风险。0000