哈工深发布多模态大模型九天 性能提升5%
要点:
九天(JiuTian-LION) 是哈尔滨工业大学(深圳)发布的全新多模态大语言模型,通过双层视觉知识增强,在13个视觉语言任务上取得了state-of-the-art性能,特别在Visual Spatial Reasoning上提升了5%。
视觉信息提取不足问题得到解决,九天模型通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效提升了视觉理解能力,减轻了MLLMs的幻觉现象。
新方法框架包括分段指令微调策略和混合适配器,解决了图像级理解任务和区域级定位任务之间的冲突,同时引入了软提示方法以提高高层语义注入的效果。
哈尔滨工业大学(深圳)近期发布了名为九天(JiuTian-LION)的多模态大语言模型,通过融合细粒度空间感知和高层语义视觉知识,取得了在13个视觉语言任务上的state-of-the-art性能,尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。
论文链接:https://arxiv.org/abs/2311.11860
GitHub:https://github.com/rshaojimmy/JiuTian
项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION
传统的多模态大语言模型在视觉信息提取上存在不足,导致了视觉定位偏差和幻觉等问题。九天模型通过双层视觉知识增强策略,解决了这一问题。
其方法框架包括分段指令微调策略和混合适配器,首次分析了图像级理解任务和区域级定位任务之间的内部冲突,实现了两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识,九天在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上实现了显著的性能提升,其中13个评测任务达到了国际领先水平。
与现有的多模态大语言模型相比,九天通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效地提升了视觉理解能力,生成更准确的文本回应,减少了模型的幻觉现象。总体而言,九天为多模态大语言模型领域带来了新的思路和性能突破,为视觉语言任务的研究提供了有力的支持。
阿里云回应B站、小红书崩了:异常问题已得到解决
7月2日中午,微博热搜榜上出现了"小红书崩了"和"B站崩了"两个热门话题。B站App遭遇服务故障,导致用户无法浏览历史记录、关注内容,消息、更新、客服界面均无法使用,评论和弹幕功能也受到影响,视频评论区和UP主主页加载失败。同时,小红书用户也报告了内容刷新问题。B站方面通过客服界面通知用户,称部分功能出现故障,正在紧急修复中,并建议用户稍后再尝试访问。站长网2024-07-02 18:04:580000荣耀:AI领域研发投入已达百亿元 完成专利超2000项
今天下午的荣耀笔记本AIPC技术沟通会上,荣耀公司公布了其在AI领域的卓越成果。据官方透露,荣耀已累计投入高达100亿元的研发费用,致力于AI技术的创新与发展。不仅如此,荣耀还成功获得了超过2000项的AI专利,充分展示了其在AI领域的深厚实力。荣耀对于AI技术的投入可谓不遗余力,其研发投入已达百亿元之巨,专利数量更是超过2000项,这一数字足以彰显荣耀在AI领域的坚定决心和强大实力。站长网2024-03-13 16:23:170000OnnxStream:内存友好的机器学习推理引擎 可在树莓派Zero 2上运行Stable Diffusion 1.5
OnnxStream是一款专注于减少内存占用、提高推理效率的机器学习推理引擎。它的设计目标是在资源受限的环境中运行深度学习模型,如树莓派Zero2,该设备只有512MB的RAM。通过OnnxStream,用户现在可以在这种低功耗设备上运行复杂的算法,这对于需要在移动环境中处理大量数据的用户来说是一个重大突破。项目地址:站长网2023-10-08 10:27:330000英伟达发布搭载 Nvidia Blackwell 系统的人工智能设备
划重点:⭐世界顶级计算机制造商发布搭载NvidiaBlackwell架构的系统,用于人工智能工厂和数据中心⭐NvidiaBlackwellGPU具有更低能耗和成本,GB200GraceBlackwellSuperchip性能出色站长网2024-06-03 12:44:140000这个小产品,在抖音热销30W+
各位村民好,我是村长。在抖音上其实有很多热销10W的小单品,比如我们前面分享过的衣领贴。这款产品卖了79.8万单今天我们再来和大家分享三个小物件,都是我们生活中较为常见有极其容易忽略的。不知道各位平常在家中会不会不小心撞到了桌角、门窗角、墙角?今天要来分享的产品就是防撞贴,而且不止一款产品。01日常生活必备好物在我们日常生活中,经常会不小心撞到各种边边角角。站长网2023-04-14 11:25:210001