马毅教授CRATE-α模型首次证实白盒Transformer可扩展性
马毅教授团队最近取得了显著的研究成果,他们开发的CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理(NLP)、图像处理和视觉计算领域的深度表征学习具有重要意义。
尽管Transformer架构及其变体在AI领域取得了巨大成功,但它们大多基于经验设计,缺乏严格的数学解释。CRATE模型通过数学推导得到每一层,提供了更好的可解释性。不过,CRATE的应用规模之前相对有限,与Vision Transformer的参数量相比有较大差距。
为了解决这一问题,研究团队提出了CRATE-α,它对稀疏编码块进行了策略性但最小化的修改,并设计了轻量级的训练方法,有效提高了CRATE的可扩展性。实验结果显示,CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上,CRATE-α-B和CRATE-α-L的准确率显著提高,同时保持了CRATE模型的可解释性。
研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调,证明了CRATE-α在不同像素块大小下的性能。此外,他们还采用了多模态数据集DataComp1B,包含14亿图文对,通过对比学习的方法训练CRATE-α,并使用优化的CLIPA协议减少计算资源消耗。
CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明,这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略,通过调整预训练阶段的图像token序列长度,在减少计算资源消耗的同时,保持了模型性能。
CRATE-α的语义可解释性也得到了提升,使用MaskCut评估模型捕获的丰富语义信息,CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展,也为未来的研究和应用开辟了新的道路。
论文:https://arxiv.org/pdf/2405.20299
项目地址:https://rayjryang.github.io/CRATE-alpha/
花3980元听人敲碗?年轻人的情绪内耗,带火千亿“疗愈”市场
你愿意花几千元去睡一觉吗?近段时间,一种名叫“钵体疗愈”的催眠方式悄然走红。所谓颂钵疗愈,就是躺在一个安静的空间,听钵体敲击发出声响,感受钵体震动,从而达到助眠、放松身心的效果。虽然网上对于颂钵疗愈的原理解释五花八门,但究其本质,还是“敲碗发声”。通过敲不同大小和和材质的“碗”,打出高频声来引起身体的共振,而这据说是现代能量学的灵力。0000Tabnine推出AI助手Tabnine Chat 加快代码交付速度
Tabnine推出了TabnineChat,这是一款企业级的以代码为中心的聊天应用程序,可以让开发人员使用自然语言与Tabnine的AI模型进行交互。该应用程序可以无缝集成到开发人员的集成开发环境(IDE)中,扩展了其功能,可以使用现有的代码进行解释,搜索代码库,并根据自然语言规范生成新代码。TabnineChat的一个重要亮点是它对安全性和合规性的强调。站长网2023-08-17 15:37:330000交通管理 AI 平台 NoTraffic 获得 5000 万美元 B 轮融资:利用 AI 技术改善交通
站长之家(ChinaZ.com)7月5日消息:基于人工智能的交通管理平台NoTraffic已获得5000万美元的B轮融资,该平台在美国各城市的发展势头强劲。站长网2023-07-05 18:20:230000一年增长近百倍,母婴品牌在抖音起飞的两大秘诀
毫无疑问,母婴行业进入了存量周期。行业报告显示,中国母婴市场交易规模增速放缓,增速低于疫情之前。用户决策偏于理性和谨慎,更为关注性价比。在科学化、精细化育儿观念的影响下,母婴行业整体提质扩容,进入品质消费阶段。(数据来源:易观国际)站长网2024-12-11 11:18:290000国家邮政局:中秋国庆假期全国揽投快递包裹超51.47亿件
国家邮政局监测数据显示,今年中秋国庆放假期间(9月29日-10月6日),全国揽投快递包裹超51.47亿件。其中,全国邮政行业揽收快递与包裹25.75亿件(不包含邮政集团包裹业务),日均揽收量与2019年国庆长假相比增长122.6%,与2022年国庆长假相比增长8.6%;站长网2023-10-07 11:01:130000