InternVL:60亿参数视觉语言基础模型填补多模态AGI的差距
划重点:
多模态AGI的关键突破:InternVL模型填补了视觉和视觉语言基础模型在多模态AGI系统中的发展差距。
创新的规模和对齐策略:InternVL通过将视觉基础模型扩展到60亿参数,实现了对LLM的更全面、有效的整合。
性能卓越的多样性:在32个通用视觉语言基准测试中,InternVL在图像分类、文本检索、图像字幕等任务上优于现有方法,展现了其卓越的视觉能力。
近期,人工智能领域一直将视觉和语言的无缝整合作为关注焦点,特别是在大型语言模型(LLMs)的出现下,该领域取得了显著进展。然而,对于多模态AGI系统而言,发展视觉和视觉语言基础模型仍有待迎头赶上。为填补这一差距,来自南京大学、OpenGVLab、上海人工智能实验室、香港大学、香港中文大学、清华大学、中国科技大学和SenseTime Research的研究人员提出了一种创新的模型——InternVL。该模型扩大了视觉基础模型的规模,并使其适应通用的视觉语言任务。

InternVL解决了人工智能领域一个关键问题:视觉基础模型和LLMs之间的发展速度差异。现有模型通常使用基本的“黏合层”来对齐视觉和语言特征,导致参数规模和表示一致性不匹配,这可能阻碍LLMs的充分潜力。
InternVL的方法独特而强大。该模型采用了大规模视觉编码器InternViT-6B和具有80亿参数的语言中间件QLLaMA。该结构具有双重作用:作为感知任务的独立视觉编码器,它与语言中间件协同工作,用于复杂的视觉语言任务和多模态对话系统。模型的训练采用了渐进对齐策略,从对大量嘈杂的图像文本数据进行对比学习开始,然后转向对更精细数据进行生成学习。这一渐进的方法在各种任务中始终提高了模型的性能。
InternVL通过在32个通用视觉语言基准测试中超越现有方法,展示了其在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等各种任务中的卓越能力。这种多样性的能力归功于与LLMs对齐的特征空间,使得该模型能够以出色的效率和准确性处理复杂任务。
InternVL的关键性能方面包括:
该模型可作为独立的视觉编码器或与语言中间件结合,适用于各种任务。InternVL通过将视觉基础模型扩展到60亿参数,创新性地解决了参数规模不匹配的问题,从而更全面、有效地与LLMs整合。在32个通用视觉语言基准测试中取得的最先进性能突显了其先进的视觉能力。在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等任务中表现出色。与LLMs对齐的特征空间增强了其与现有语言模型的无缝整合能力,进一步拓宽了应用范围。
这项研究在以下几个方面取得了突破:
InternVL是多模态AGI系统中的一大飞跃,填补了发展视觉和视觉语言基础模型的关键差距。其创新的规模和对齐策略赋予了它多样性和强大的能力,使其在各种视觉语言任务中表现卓越。
该研究有助于推动多模态大型模型的发展,潜在地重塑人工智能和机器学习的未来格局。
项目体验网址:https://top.aibase.com/tool/internvl
论文网址:https://arxiv.org/abs/2312.14238
AI能直接生成海报了,我愿称Ideogram为新晋之王。
大半夜的,可能是我认为做海报、做logo、做文字最猛的AI绘图产品,Ideogram,更新了他们的2.0版本。把文字嵌入和整个图片的美学质量,又一次推上了巅峰。可能很多人不知道Ideogram。在AI绘图里面,这个产品确实也有一点冷门。不过并不妨碍他,一直是我心中,做文字生成最屌的产品。在我们做AI绘图的时候,其实过往一直都有一个痛点是,在图片里面嵌入文字,效果都很差。站长网2024-08-22 14:15:050000北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界
要点:1.LLaMA-Rider是一个训练框架,赋予大型语言模型在开放世界中自主探索、学习任务的能力,提高其适应开放环境的通用智能。2.LLaMA-Rider采用反馈-修改机制进行主动探索,在探索阶段将成功经验整合为监督数据集,然后用于微调模型,提高多任务解决的能力。站长网2023-11-07 12:06:100000钉钉与小冰公司达成合作 推出一键定制数字人服务
钉钉与小冰公司合作推出一键定制数字人服务,用户可通过钉钉参与数字人内测,并在钉钉视频号发布数字人视频。双方将在钉钉视频号、直播、视频会议、AI助理等领域展开全面合作。小冰提供数字人生产平台,用户可通过智能手机采集视频和音频数据创建专属数字人。数字人具有栩栩如生的声音、面容、表情和肢体动作。0001谷歌发布重磅人工智能助手Gemini 将全面取代Google Assistant
谷歌作为一家拥有上百万种类似产品的公司公司而闻名,而这些产品的名称各不相同,毫无共同之处。然而,当谈到人工智能工作时,双子座成为了唯一一个重要的名字。站长网2024-02-09 13:18:150000广告情报公司:特斯拉去年广告费15万美元 福特3.7亿
作为全球话题性最足的车企,特斯拉向来不缺舆论和关注度,或许这也是特斯拉从来不打广告的主要原因。5月18日消息,广告情报公司Vivvix估计,特斯拉去年在美国的广告支出约为151,947美元。对一家销量破百万的车企来说,15万美元的广告费几乎可以忽略不计。作为对比,美国其它车企的广告费,都是在上亿美元级别。站长网2023-05-18 20:37:280000