UC伯克利研究者推大世界模型(LWM) 与Gemini 1.5 Pro能力相当
最近,谷歌的Gemini1.5和OpenAI的Sora模型引发热议,但这些模型是否真的能很好地理解世界?以Sora为例,虽然给人们带来了惊喜,但在模拟复杂物理原理方面存在一定局限性,如健身男子倒跑跑步机。随着大型模型的发展,固有的缺点也显现出来,模型在处理现实世界难以用语言描述的内容时表现困难,长程任务也难以处理。
因此,视频模型的出现在一定程度上弥补了这一问题,提供了语言和静态图像所缺少的时间信息,为大型语言模型(LLM)的发展带来新的可能性。然而,由于内存限制、计算复杂性和有限的数据集,从数百万个视频和语言序列的token中学习仍然具有挑战性。

项目地址:https://top.aibase.com/tool/large-world-models
为了解决这些挑战,来自UC伯克利的研究者推出了大世界模型(LWM),利用RingAttention技术对长序列进行可扩展训练,这是一个带有视频生成功能的多模态模型,非常强大,与Gemini1.5Pro的能力相当。这个模型支持100万上下文的文本检索,可以分析超过1小时的视频,并支持视频和图片生成。
该研究在长视频和语言序列上训练了一个具有极大上下文尺寸的transformers模型,为新的检索任务和长视频理解设立了新的标杆。
通过RingAttention、掩码序列打包等方法,研究团队成功训练了数百万长度的多模态序列,提供了处理超过100万token长文本文档和视频的完全开源模型。LWM模型不仅可以根据文本提示生成图像和视频,还能深入理解图片、回答关于图片的问题,表现出优越的长视频理解能力。
总的来说,LWM模型在长视频问题回答方面表现优于业界其他模型,包括谷歌的Gemini Pro和OpenAI的GPT-4。研究者通过多种策略克服了视觉-语言训练的挑战,为处理长视频与语言序列提供了新的思路,如损失加权和使用模型生成的问答数据。该研究的推出将为语言模型更好地理解物理世界打开新的可能性,为人工智能技术的发展带来新的契机。
谷歌发布Gemini 1.5技术报告 详细介绍Gemini 1.5 Pro模型架构改进情况
GoogleDeepMind发布了一份长达150页的技术报告,详细介绍了Gemini1.5Pro和Gemini1.5Flash两个模型的性能特点和架构以及这个多模态大型模型的最新进展。Gemini1.5于今年2月上线,通过工程优化、MoE架构等策略显著提升了性能和速度。该模型具有更长的上下文理解能力、更强的推理能力,能够处理跨模态内容。报告中提到了两个新型号:站长网2024-05-20 11:04:530001百度第二季度营收339亿元 百度APP月活达7.03亿
百度公司今日公布了2024年第二季度的财务报告,数据显示,公司总营收达到339亿元人民币,与去年同期基本持平。其中,归属于百度的净利润录得55亿元人民币,而在非美国通用会计准则下,这一数字为74亿元人民币。站长网2024-08-22 17:45:510000最年轻985,正批量诞生IPO
我们先从最新一个IPO说起。昨日(5月12日),锂电涂布模头第一股——曼恩斯特正式登陆深交所创业板,收盘市值超100亿元。鲜为人知的是,这家公司掌舵人彭建林正是毕业于有着中国锂电池行业“黄埔军校”之称的中南大学。站长网2023-05-14 11:42:0800014月新能源销量:比亚迪、埃安、理想全线杀疯
近日,新能源车企相继公布了2023年4月的新车销量情况。具体来看,比亚迪的表现最为亮眼,4月新能源汽车销量21.03万辆,同比增长近一倍,不出意外的话,其还将蝉联国内车企销冠。紧随其后的是埃安,4月销量高达41012辆,同步大增302%。并且,广汽埃安旗下均为纯电车型,电动车销量屡创新高。站长网2023-05-03 09:11:260000哈佛大学基于GPT开发AI辅助教学工具CS50.ai
在ChatGPT刚出来的时候,很多大学就禁止使用ChatGPT、GitHubCopilot等AI辅助工具,防止学生作弊。而哈佛大学意识到,如果不利用AI的强大潜力来丰富学生的学习过程,那将错失一个宝贵机遇,这是非常可惜的。因此,他们积极地基于GPT开发了一套AI辅助教学工具,尝试在计算机科学教育中应用生成式人工智能。地址:https://cs50.ai/站长网2024-01-22 16:50:100000