马毅教授CRATE-α模型首次证实白盒Transformer可扩展性
马毅教授团队最近取得了显著的研究成果,他们开发的CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理(NLP)、图像处理和视觉计算领域的深度表征学习具有重要意义。
尽管Transformer架构及其变体在AI领域取得了巨大成功,但它们大多基于经验设计,缺乏严格的数学解释。CRATE模型通过数学推导得到每一层,提供了更好的可解释性。不过,CRATE的应用规模之前相对有限,与Vision Transformer的参数量相比有较大差距。
为了解决这一问题,研究团队提出了CRATE-α,它对稀疏编码块进行了策略性但最小化的修改,并设计了轻量级的训练方法,有效提高了CRATE的可扩展性。实验结果显示,CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上,CRATE-α-B和CRATE-α-L的准确率显著提高,同时保持了CRATE模型的可解释性。
研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调,证明了CRATE-α在不同像素块大小下的性能。此外,他们还采用了多模态数据集DataComp1B,包含14亿图文对,通过对比学习的方法训练CRATE-α,并使用优化的CLIPA协议减少计算资源消耗。
CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明,这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略,通过调整预训练阶段的图像token序列长度,在减少计算资源消耗的同时,保持了模型性能。
CRATE-α的语义可解释性也得到了提升,使用MaskCut评估模型捕获的丰富语义信息,CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展,也为未来的研究和应用开辟了新的道路。
论文:https://arxiv.org/pdf/2405.20299
项目地址:https://rayjryang.github.io/CRATE-alpha/
Anthropic发布Claude 3系列大模型 Claude 3 Sonnet官网是什么
站长之家(ChinaZ.com)3月5日消息:今日,人工智能创业公司Anthropic宣布推出其最新大型语言模型(LLM)Claude3系列,该系列模型在各种认知任务上设立了新的性能标杆。这一突破性系列包括Claude3Haiku、Claude3Sonnet和Claude3Opus三个子模型,它们为用户提供了不同层次的智能、速度和成本选择,以满足多样化的AI应用需求。站长网2024-03-05 13:17:320000英国学校教师们对人工智能飞速发展对教育的影响感到困惑
英国的校长们警告称,人工智能(AI)的飞速发展及其对教育的影响让英国的学校感到困惑。在一封致《泰晤士报》的信中,来自公立和私立学校的教育工作者表示,这些发展「令人困惑」。他们正在成立一个专家小组,为学校提供建议,告诉他们哪些领域是「有益的」,哪些是「有害的」。他们说,这项技术的发展速度「太快了」,单靠政府提供的建议是不足够的。站长网2023-05-22 14:31:230000小米首批SU7开启交付 雷军:小米正式成为一家车厂
小米集团董事长雷军在微博上兴奋宣布:“三年前的豪言壮语,今天变成了现实,我会将一台台崭新的小米SU7亲自交到首批车主手上。从今天开始,小米正式成为一家车厂。大家是不是应该叫我雷厂长了?哈哈哈哈哈。”据了解,小米公司昨日已对外公布,今日将在北京亦庄的小米汽车工厂隆重举办小米SU7的首批交付仪式。与此同时,全国范围内的28座城市交付中心也定于4月3日同步启动交付工作。站长网2024-04-08 12:45:260000微软推EgoGen:创新性3D数据合成模型 可生成丰富多模态数据
划重点:1.🚀EgoGen是微软与苏黎世联邦理工学院合作推出的创新3D数据合成模型,解决第一人称视角训练数据生成的难题。2.🌟该模型采用双阶段强化学习方案,通过高效的自我感知视觉代理和“注意”奖励,优化生成模型,使虚拟人物更自然、逼真地感知环境。站长网2024-02-23 09:17:590000抖音生活服务上线“安心游”优质出行商品质量保障计划
抖音生活服务正式上线了名为“安心游”的优质出行商品质量保障计划。该计划通过甄选高品质线路商品和设定严格的商品标准,保障消费者在出行过程中的安心体验。消费者通过“安心游”购买服务可以享受到纯玩无购物、透明费用、成团保障、退费拒签保障等权益。同时,入驻“安心游”对商家来说也意味着获得更多的曝光和经营上的支持。站长网2023-09-15 08:31:260000