20449

开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

站长网2024-04-12 11:22:512阅

划重点:

⭐️ UC 伯克利研究人员开源首个世界模型，具有百万级上下文处理能力。

⭐️ 该模型在多模态任务中表现出色，长视频理解效果优于 GPT-4V 和 Gemini Pro。

⭐️ LWM 系列模型在 GitHub 上受到广泛关注，开发者积极参与并获得高星数。

来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型，被称为 LWM（LargeWorldModel）系列模型。这一模型采用了大量视频和书籍数据集，通过 RingAttention 技术实现了长序列的可扩展训练，使得模型的上下文长度达到了1M token。

在实验中，LWM 系列模型展现出了优异的多模态性能，在文本图像生成、文本视频生成以及基于图像的对话等任务中表现出色。

研究人员指出，LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro，在处理超长视频理解方面尤为出色。更令人振奋的是，LWM 是一款开源模型，基于 Llama27B，受到了开发者们的热烈欢迎，仅在不到两周的时间里，就在 GitHub 上获得了超过6.2k 的 star。

该模型的训练过程分为两个阶段，首先是上下文扩展阶段，主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训，通过联合训练长视频和语言序列，提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练，并在模型设计和训练过程中做出了相应调整和优化。

这一开源的世界模型展示了强大的多模态处理能力，为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与，为人工智能领域的进步和创新带来了新的契机。

论文地址:https://arxiv.org/pdf/2402.08268.pdf

项目入口:https://github.com/LargeWorldModel/LWM

开源世界模型LWM百万级上下文长视频理解超GPT4

0002

评论列表

共(0)条

相关推荐

支付宝推出“12.12支付宝生活节” 准备派发12亿红包
近日，支付宝推出12.12生活节促销活动，从12月1日起至12月12日，在支付宝平台线上线下实现“消费省钱”。用户可通过扫描商家“赚钱红包”二维码领取现金红包，还可在支付宝App上领取更多购物和生活福利。
站长网站长资讯2023-12-04 14:19:05
0000
商业导师们全面拥抱DeepSeek
每到风口，第一波赚钱的人通常都是卖课的。在前几日的文章《第一波利用DeepSeek搞钱的人出现了》，三言发现在社交平台、电商以及一些知识付费平台上，出现很多打着“利用DeepSeek赚钱”名号的课程，还有一些挂着各种教授、行业专家名号的人开直播专门讲授DeepSeek知识。而大部分课程都是有关DeepSeek的基础操作，所谓的赚钱更多是噱头，这已经是卖课套路的常用手段了，早就屡见不鲜了。
站长网站长资讯2025-02-12 17:41:51
0000
站长资讯
抖音：极个别账号仿冒“中图网”名称已进行严格处置
抖音发布治理“自媒体”违法违规现象的公告称，近日发生的京津冀洪涝灾害，使位于河北涿州的全国最大图书物流仓储基地被洪水淹没，库房内大量书籍因无法及时转移而遭浸泡。灾情导致“中图网”等企业损失严重。对此，大量网友表示愿意提供帮助，并纷纷在线购买书籍。
站长网2023-08-07 14:04:01
0002
站长资讯
病毒从哪里来？
作者：唐骋（中国科学院脑科学与智能技术卓越创新中心）文章转载自中国科普博览大家族科学大院（ID：kexuedayuan）了解演化的朋友应该都知道，只要往上追溯，任何两个生物都能追溯到某个共同祖先，而祖先还能继续溯源到祖先的共同祖先，最终构建起一棵足以囊括古今众生的演化之树。
站长网2023-05-24 23:47:26
0000
腾讯为了元宝真是下血本了
2025年2月底，在AppStore排行榜中，腾讯元宝超越字节豆包，升至大陆地区苹果端App免费榜第二位，仅次于DeepSeek。这一变化来得并不突然，自2月13日元宝接入DeepSeek-R1后，腾讯迅速调整产品策略，连续推出功能升级，并在2月18日将投放预算推至前所未有的高度。
站长网站长资讯2025-03-03 18:11:02
0000