扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下
要点:
Gemini-Pro在多模态能力上与GPT-4V不相上下,尤其在多模态专有基准MME上表现出1933.4的高分,超过GPT-4V。
在37个视觉理解任务中,Gemini-Pro在文本翻译、颜色/地标/人物识别、OCR等任务中表现突出,而GPT-4V在名人识别任务上得分为0。
在高级认知、挑战性视觉任务和各种专家能力领域,Gemini-Pro展现了强大的视觉感知和理解能力,但在位置识别任务上表现都不佳。
近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展,与GPT-4V不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准MME上的综合表现中,Gemini-Pro以1933.4的高分超越了GPT-4V,展现出在感知和认知方面的全面优势。而在37个视觉理解任务中,Gemini-Pro在文本翻译、颜色/地标/人物识别以及OCR等任务中表现突出,显示了其在基础感知领域的卓越能力。
论文地址:https://arxiv.org/pdf/2312.12436.pdf
项目地址:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
然而,评测也揭示了两者的差异。在名人识别任务上,GPT-4V的得分为0,主要因其拒绝回答相关问题。而在位置识别任务中,两者都呈现出不佳的表现,显示它们对空间位置信息的不敏感。此外,开源模型SPHINX在感知任务上与GPT-4V和Gemini平齐甚至更优,但在认知方面存在较大差距。
评测报告分为基础感知、高级认知、挑战性视觉任务和各种专家能力四大领域,对Gemini-Pro的视觉理解能力进行了详细评估。基础感知测试涵盖了对象级感知、场景级感知和基于知识的感知能力,其中Gemini-Pro在颜色/地标/人物识别和OCR等任务中的表现突出。
高级认知测试则涉及富含文本的视觉推理、抽象视觉推理、解决科学问题、情感分析和智力游戏等任务,显示Gemini-Pro在公式生成和抽象视觉刺激方面取得良好成绩。
挑战性视觉任务包括指称表达式理解、目标跟踪和视觉故事生成等,Gemini-Pro在这些任务中展现了深厚的视觉感知和理解能力。最后,各种专家能力测试涉及缺陷检测和经济分析等任务,Gemini-Pro在股价走势图的分析上显示了出色的专业知识。然而,评测也指出Gemini-Pro在一些任务上存在幻觉问题,需要进一步改进。
Gemini-Pro在多模态领域取得了令人瞩目的成就,展现了其在视觉理解能力上的强大潜力。然而,评测也突显了在特定任务和领域仍需进一步提升的空间。Gemini-Pro的表现表明了多模态技术的潜在威力,为未来的研究和应用提供了有益的启示。
新规或重创游戏股,恺英网络表示影响难以评估
今天午后开盘,游戏股普遍遭遇大面积下挫,截止午间休盘,网络游戏概念股大跌,哔哩哔哩跌幅5.35%、腾讯控股跌7.17%、网易跌超12%。此次下挫的原因在于国家新闻出版署发布了关于公开征求《网络游戏管理办法(草案征求意见稿)》的通知。通知中明确提到,网络游戏将不得设置每日登录、首次充值、连续充值等诱导性奖励,同时规定所有网络游戏必须设定用户充值限额等。站长网2023-12-22 14:18:430000Mistral AI推出Mixtral 8x7B:一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5
##划重点:1.🚀**创新模型介绍:**MistralAI的研究团队推出了基于SparseMixtureofExperts(SMoE)模型的Mixtral8x7B语言模型,采用开放权重。2.🌐**性能突出:**Mixtral8x7B在多语言数据(32k令牌上下文大小)的预训练中表现优异,与Llama270B和GPT-3.5相比,性能不逊色甚至更好。站长网2024-01-15 15:25:5600003周收益近7万元,在支付宝发视频就有钱赚?
6.71万播放量,30天内收益超3000元。近期,一张支付宝的收益截图在一些新媒体群引起讨论:“支付宝还可以刷短视频?”“扶持力度大吗?怎么计算收益?是新风口吗?”图片来源:小红书用户“苏密,”评论区很多网友留言“求带”分享经验站长网2023-08-03 14:00:420000一加6100mAh冰川电池发布:一加Ace3Pro首发搭载
今日下午,一加公司正式发布了冰川电池。这款电池不仅容量高达6100mAh,更凭借其三大自研创新技术,成功实现了行业领先的能量密度和充电效率。一加冰川电池的核心技术包括高容量仿生硅碳材料、仿生蜂巢结构设计以及硅碳负极寿命算法。这些技术的融合使得一加冰川电池在能量密度上达到了惊人的763Wh/L,同时含硅量高达6%,显著提升了电池的性能。站长网2024-06-21 21:30:420000科技资产管理公司 Ark Invest认为人工智能投资的机会在于小众领域
近日,专注于科技领域的资产管理公司ArkInvest选定了几家公司作为其“沉睡浪潮”战略的一部分,这些公司在人工智能领域拥有前景可期的投资机会。值得注意的是,著名科技公司如苹果、Alphabet、微软和英伟达等,并未被列入其中。ArkInvest公司特别强调不应认为这些“巨型”科技股将是“人工智能革命”的主要受益者。站长网2023-08-22 12:00:570000