开源世界模型LWM :百万级上下文,长视频理解超GPT-4
划重点:
⭐️ UC 伯克利研究人员开源首个世界模型,具有百万级上下文处理能力。
⭐️ 该模型在多模态任务中表现出色,长视频理解效果优于 GPT-4V 和 Gemini Pro。
⭐️ LWM 系列模型在 GitHub 上受到广泛关注,开发者积极参与并获得高星数。
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。这一模型采用了大量视频和书籍数据集,通过 RingAttention 技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1M token。
在实验中,LWM 系列模型展现出了优异的多模态性能,在文本图像生成、文本视频生成以及基于图像的对话等任务中表现出色。
研究人员指出,LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro,在处理超长视频理解方面尤为出色。更令人振奋的是,LWM 是一款开源模型,基于 Llama27B,受到了开发者们的热烈欢迎,仅在不到两周的时间里,就在 GitHub 上获得了超过6.2k 的 star。
该模型的训练过程分为两个阶段,首先是上下文扩展阶段,主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训,通过联合训练长视频和语言序列,提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练,并在模型设计和训练过程中做出了相应调整和优化。
这一开源的世界模型展示了强大的多模态处理能力,为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。
论文地址:https://arxiv.org/pdf/2402.08268.pdf
项目入口:https://github.com/LargeWorldModel/LWM
涨价引发众怒一年后,今天Unity向游戏行业低头了
昨日(9月12日),Unity官方发布了一则消息,首先提到一项重要调整:他们决定全面取消游戏客户的Runtime费用——即俗称的运行费/安装费,即刻生效(非游戏领域的工业客户不会受到这一调整的影响)。文章的署名,是Unity的新任CEOMattBromberg。0000微软发布iPhone可运行的ChatGPT级AI模型Phi-3系列 挑战OpenAI地位
近日,微软推出了一款名为Phi-3系列的小型AI模型,该模型在AI领域引起了广泛关注。Phi-3系列中的Phi-3-mini模型,仅拥有3.8B参数,却在多项基准测试中超越了拥有8B参数的Llama3模型。站长网2024-04-23 16:37:080000腾讯讯云推出高性能应用服务HAI 10分钟即可创建AI应用
12月18日,腾讯云宣布推出高性能应用服务(HyperApplicationInventor,HAI),无需复杂配置,用户只需10分钟即可创建自己的AI应用。据介绍,HAI提供即插即用的算力和常见环境,可以帮助中小企业、开发者和个人用户快速部署语言模型、AI作画、数据科学等高性能应用。它原生集成了配套的开发工具和组件,大幅提高了应用的开发效率,同时也大幅降低了开发门槛。0000国服回归有戏!曝网易、暴雪分手一年后“复合”
快科技12月25日消息,据36氪”报道,过去一段时间,暴雪与国内多家游戏厂商洽谈了国服回归”事宜,最终选择与网易重新牵手合作。据悉,11月底,有报道称暴雪已在和包括网易、腾讯在内的多家游戏厂商谈判国服回归事宜,但目前尚未有确定的合作方和具体回归时间2023年1月24日零点,我们见证了可能是游戏史上最大规模的停服事件暴雪中国战网”服务器正式关闭,长达25年的暴雪中国业务戛然而止。0000RPG-DiffusionMaster:利用LLM优化SD文生图过程
RPG-DiffusionMaster是一个利用LLM(LargeLanguageModel)优化SD(Text-to-Image)文本到图像的转换过程的框架。该框架能够更好地理解和分解生成图像的文字提示,以实现将一幅图像分解成不同的部分或区域,并根据理解的相应文本提示来生成图像,最后合成为一个符合预期要求的图像。站长网2024-01-23 18:00:500000