开源世界模型LWM :百万级上下文,长视频理解超GPT-4
划重点:
⭐️ UC 伯克利研究人员开源首个世界模型,具有百万级上下文处理能力。
⭐️ 该模型在多模态任务中表现出色,长视频理解效果优于 GPT-4V 和 Gemini Pro。
⭐️ LWM 系列模型在 GitHub 上受到广泛关注,开发者积极参与并获得高星数。
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。这一模型采用了大量视频和书籍数据集,通过 RingAttention 技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1M token。
在实验中,LWM 系列模型展现出了优异的多模态性能,在文本图像生成、文本视频生成以及基于图像的对话等任务中表现出色。

研究人员指出,LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro,在处理超长视频理解方面尤为出色。更令人振奋的是,LWM 是一款开源模型,基于 Llama27B,受到了开发者们的热烈欢迎,仅在不到两周的时间里,就在 GitHub 上获得了超过6.2k 的 star。
该模型的训练过程分为两个阶段,首先是上下文扩展阶段,主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训,通过联合训练长视频和语言序列,提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练,并在模型设计和训练过程中做出了相应调整和优化。
这一开源的世界模型展示了强大的多模态处理能力,为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。
论文地址:https://arxiv.org/pdf/2402.08268.pdf
项目入口:https://github.com/LargeWorldModel/LWM
人脸识别技术应用安全管理规定公布:在公共场所使用人脸识别应备案
据网信中国消息,为规范人脸识别技术应用,国家互联网信息办公室起草了《人脸识别技术应用安全管理规定(试行)(征求意见稿)》,现向社会公开征求意见。意见反馈截止时间为2023年9月7日。规定明确,只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,方可使用人脸识别技术处理人脸信息。实现相同目的或者达到同等业务要求,存在其他非生物特征识别技术方案的,应当优先选择非生物特征识别技术方案。站长网2023-08-08 08:54:300002年轻人追捧的可爱元素,是如何成为潮流新宠的?
你有为可爱的事物买过单吗?萌宠小动物、办公趣味摆件、毛绒文创玩具……近期,随着各类景点IP文创产品的流行,从北京冰糖葫芦文创,到甘肃的玩偶麻辣烫、陕西的“绒馍馍”等,全国各地掀起一股“可爱经济”的消费热潮。社交媒体上,从泡泡玛特的盲盒到#吃谷成为年轻人寄托情感新方式#,#年轻人成为毛绒玩具最大消费群体#等话题也争相上热搜,“可爱”正在成为当代消费市场中的热词。图片来源:微博截图0000新一代安卓操作系统Android 14正式发布:首批支持手机品牌公布 小米等在列
快科技10月5日消息,周三谷歌在纽约举行了一年一度的MadebyGoogle2023发布会,除了Pixel8和Pixel8Pro两款手机之外,还发布了新版安卓系统Android14,以及生成式AI加持的谷歌助手AssistantwithBard。站长网2023-10-05 22:11:2700032微软、亚马逊等公司正在制定 AI 辅助招聘政策
站长之家(ChinaZ.com)10月12日消息:虽然进一步在招聘实践中引入AI可能解决一些问题,但专家表示,不应期望技术能够完全改变公司招聘新员工的方式。站长网2023-10-12 10:02:02000076%的顶级金融公司正在使用AI/ML
最近一项调查显示,目前已有76%的顶级金融公司正在使用人工智能和机器学习(AI/ML)。这些先进技术正迅速渗透多个行业部门,为提高客户满意度、运营效率和业绩带来强大动力。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-12-15 11:46:420000