哈工深发布多模态大模型九天 性能提升5%
要点:
九天(JiuTian-LION) 是哈尔滨工业大学(深圳)发布的全新多模态大语言模型,通过双层视觉知识增强,在13个视觉语言任务上取得了state-of-the-art性能,特别在Visual Spatial Reasoning上提升了5%。
视觉信息提取不足问题得到解决,九天模型通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效提升了视觉理解能力,减轻了MLLMs的幻觉现象。
新方法框架包括分段指令微调策略和混合适配器,解决了图像级理解任务和区域级定位任务之间的冲突,同时引入了软提示方法以提高高层语义注入的效果。
哈尔滨工业大学(深圳)近期发布了名为九天(JiuTian-LION)的多模态大语言模型,通过融合细粒度空间感知和高层语义视觉知识,取得了在13个视觉语言任务上的state-of-the-art性能,尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。
论文链接:https://arxiv.org/abs/2311.11860
GitHub:https://github.com/rshaojimmy/JiuTian
项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION
传统的多模态大语言模型在视觉信息提取上存在不足,导致了视觉定位偏差和幻觉等问题。九天模型通过双层视觉知识增强策略,解决了这一问题。
其方法框架包括分段指令微调策略和混合适配器,首次分析了图像级理解任务和区域级定位任务之间的内部冲突,实现了两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识,九天在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上实现了显著的性能提升,其中13个评测任务达到了国际领先水平。
与现有的多模态大语言模型相比,九天通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效地提升了视觉理解能力,生成更准确的文本回应,减少了模型的幻觉现象。总体而言,九天为多模态大语言模型领域带来了新的思路和性能突破,为视觉语言任务的研究提供了有力的支持。
以色列推出AI坦克“Barak”,价值数百万美元 提供360度战场视野
文章概要:1.以色列推出“Barak”坦克,搭载人工智能,提供360度战场视野,被誉为战争新时代的开始。2.“Barak”坦克具备先进的观测和夜视能力,能够实时共享情报,提高作战效能。3.这款坦克代表了以色列军事技术的高水平,虽然价格未公开,但被认为与“Merkava4M”相当。站长网2023-09-25 10:47:130000白宫采取新措施研究AI对工人带来的风险
白宫将与工人举行听证会,以了解雇主使用自动化技术进行监督、监测和评估方面的使用情况。此次电话会议将包括相关工作专家、研究人员和政策制定者。越来越多用户已经尝试过AI应用程序和工具,支持者称这些应用程序和工具可以进行医学诊断、编写剧本、创建法律简报和调试软件,这导致人们越来越担心该技术会如何导致侵犯隐私、影响就业决策以及权力诈骗和错误信息传播。站长网2023-05-24 12:05:040000国产大模型 WAIC 竞技:大厂拼落地,中厂显焦虑
如果想要度量国产大模型大小厂商的实力,WAIC(世界人工智能大会)是一个不错的切口。众所周知,2023年是国产大模型元年,在去年的WAIC之后,腾讯发布混元大模型,字节跳动上线豆包APP,而后通过豆包大模型正式开启对外服务,年轻的月之暗面、MiniMax等创业公司形成了「五小虎」的格局,这让今年的WAIC有了更强的指向性:大模型选手们都已走向台前,给了AI行业更多的机会和答案。站长网2024-07-08 20:30:520000考勤打卡提醒异常!钉钉紧急修复 官方道歉:耽误大家准点下班了
快科技8月1日消息,今日晚间,钉钉官博发文,称今天下午17点30分,钉钉考勤打卡的提醒出现异常(实际打卡已成功,仅返回信息有延迟),经紧急处理,该异常已经于17点45分修复完毕。钉钉表示:耽搁大家准点下班万分抱歉!(下次就算崩也尽量在上班的时候崩)”。有网友调侃道,我以为我们公司崩了,原来是你崩了”点了多次,还以为是自己网络有问题,原来是你”。站长网2023-08-01 21:35:010000腾讯推新技术Paint3D 给3D模型生成高清纹理
要点:腾讯推出的技术Paint3D能够根据文本或图像输入,在不具有内嵌光照信息的3D模型上生成高分辨率、无光照的多样化纹理贴图。Paint3D利用两阶段纹理生成框架,首先通过预训练2D图像生成模型获取输入的引导信息,然后在UV纹理空间上训练无光照扩散模型,生成无光照纹理,提升3D模型纹理生成效果。站长网2024-01-02 15:04:170001