智谱开源新一代多模态大模型CogVLM2
智谱·AI最近宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%,在TextVQA基准上性能提升了21.9%,显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。

CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合,同时保持了模型在语言处理上的优势。此外,CogVLM2在推理时实际激活的参数量仅约120亿,这得益于其精心设计的多专家模块结构,显著提高了推理效率。
在模型效果方面,CogVLM2在多个多模态基准测试中取得了优异的成绩,包括TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet和MMBench等。这些测试涵盖了从文本和图像理解到复杂推理和跨学科任务的广泛能力。CogVLM2的两个模型在多个基准中取得了最先进的性能,同时在其他性能上也能达到与闭源模型相近的水平。
代码仓库:
Github:https://github.com/THUDM/CogVLM2
模型下载:
Huggingface:huggingface.co/THUDM
魔搭社区:modelscope.cn/models/ZhipuAI
始智社区:wisemodel.cn/models/ZhipuAI
Demo体验:
https://modelscope.cn/studios/ZhipuAI/Cogvlm2-llama3-chinese-chat-Demo/summary
CogVLM2技术文档:
https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf
学生党福音!BrainyPDF支持用户与PDF文档聊天
BrainyPDF是一款先进的AI工具,为处理PDF文档开辟了新的可能性,为学生、研究人员和专业人士提供了宝贵资源。用户可以从BrainyPDF中获得即时信息、适用于各个领域的学术和研究支持、多语言支持、引用来源和文件安全存储等多方面的利益。这使BrainyPDF成为处理PDF文档的强大工具,为用户提供了便捷和可信赖的服务。体验地址:https://brainypdf.com/站长网2023-10-07 17:18:490000四战搜索,抖音难造“百度”
执念太深!抖音还是没放弃搜索,并发起一场持久战。据Tech星球报道,继头条搜索、悟空搜索、闪电搜索之后,抖音于近期推出第4个独立搜索APP——“抖音搜索”,标志着其第四次向搜索领域发起挑战。搜索——这个古早的互联网内容产品,撑起巨头百度。当内容江湖生变,搜索的新战场转向视频领域。抖音几次试图抓住这弯道超车的大好机会,抢占搜索这块蛋糕。站长网2024-09-02 09:51:390000蒙牛发布营养健康领域模型 MENGNIU.GPT
蒙牛发布了以AI驱动的数智化双飞轮战略,并推出了全球首个营养健康领域模型MENGNIU.GPT。该模型由多个营养健康机构提供高质量训练素材,融合了多家科技巨头的技术,通过国内外21个营养健康专业认证考试。蒙牛还推出了AI营养师“蒙蒙”,为消费者提供健康评估、营养计划制定、运动计划制定等服务。此外,蒙牛还宣布免费开放MENGNIU.GPT能力,推动智慧营养健康服务的普及。站长网2023-08-07 11:25:210001一言不合就跑分,国内AI大模型为何沉迷于“刷榜”
“不服跑个分”这句话,相信关注手机圈的朋友一定不会感到陌生。诸如安兔兔、GeekBench等理论性能测试软件,由于能够在一定程度上反映手机的性能,因此备受玩家的关注。同理在PC处理器、显卡上,同样也有相应的跑分软件来衡量它们的性能。既然“万物皆可跑分”,当下最热的AI大模型也开始玩起了跑分,特别是在“百模大战”打响后,更几乎是天天都有突破、各家的都宣称自己是“跑分第一”。站长网2023-12-03 10:42:500000小米巅峰机皇!小米15 Ultra将首次用上北斗卫星通信
快科技12月2日消息,小米15系列开售后表现不错,目前大家已经开始期待小米15Ultra了,该机最快将在1月份登场。博主数码闲聊站”最新爆料称,小米15Ultra工程机依然是与前代类似的2K等深四曲屏。该机将标配天通卫星通信,而顶配版将支持北斗卫星通信,这是小米第一次用上北斗系统。据悉,此前北斗系统是华为独家搭载,近期才开始陆续开放给荣耀等厂商。0000