谷歌发布Gemini 3 数学能力堪称全球
站长之家(ChinaZ.com)11月19日 消息:谷歌正式推出其最新一代推理模型Gemini3.0Pro,并在Google AI Studio同步上线预览版,开放API接口,该模型还将陆续登陆谷歌旗下各类产品。
Gemini3.0Pro一经发布便在各大评测榜单上大放异彩。在LMArena大模型竞技场中,它以1501的Elo得分强势登顶榜首。在数学能力方面,谷歌公布的测试数据显示,Gemini3.0Pro堪称全球最强。在被称为“地狱难度”的数学竞赛基准MathArena中,当GPT -5.1等其他大模型成绩还在1%左右徘徊时,Gemini3.0Pro一举达到23.4%,优势显著。
编程能力上,Gemini3.0Pro虽在SWE - Bench上未取得SOTA成绩,但稳居第一梯队。在Live Code Bench中,其Elo得分突破2400分,在工具调用与终端操作基准测试中也排名第一。视觉理解能力更是令人惊叹,对屏幕截图的理解准确率高达72.7%,达到现有最先进水平的两倍,有望彻底重塑AI操作计算机的交互模式,让AI Agent不再是“视觉障碍者”。
谷歌还同期发布了自家的Agentic编程平台Google Antigravity,为技术发展再添助力。根据Model Card披露,Gemini3.0Pro在推理、多模态、Agent工具使用等关键基准测试中全面领先。
硬件层面,Gemini3.0Pro基于谷歌自研的张量处理单元(TPU)训练。TPU在处理大语言模型所需的大规模计算时速度比CPU更快,配备的大容量高带宽内存使其能够高效运行超大模型与批量数据。
在实际应用方面,最新发布的Gemini Agent实验功能已能自主执行多步骤复杂流程。例如,用户提出“整理一下我的收件箱”,它就能自动优先安排待办事项,并起草邮件回复供用户确认。
目前,Gemini3预览版正逐步开放。所有用户可通过Gemini应用使用;Google AI Pro与Ultra订阅用户可在搜索的AI模式中体验;开发者可通过Gemini API、Google Antigravity及Gemini CLI访问;企业用户则通过Vertex AI与Gemini Enterprise获取服务。
专注数学的开源大模型LLEMMA来了 性能领先其他数学语言模型
要点:1.LLEMMA是一个开源的大型语言模型,专门设计用于解决数学问题,并且在性能上超越了其他领先的数学语言模型。2.LLEMMA能够利用工具和证明形式定理来解决数学问题,而无需进行额外的微调。3.LLEMMA的发布为其他研究人员提供了一个基础,可以在此基础上进一步研究和改进数学语言模型的能力。站长网2023-10-22 10:42:080000“请不要在 GitHub 上传我的代码!”
对多数程序员而言,GitHub是一个神奇的开源社区:有丰富的学习资料、著名的项目代码,新手小白也能和编程大佬直接交流,帮别人“填坑”也能提升自我……因此,可能很难有人料想到,有一天GitHub竟成为了开发者抵制的存在——今日有个开发者(以下用“T”代称)写的文章登上了HackerNews热榜,标题是:“请不要在GitHub上传我的代码!”“罪魁祸首”:Copilot站长网2023-05-10 09:05:150000Apple上线与Find My兼容的Ember温控旅行杯 售价1412元
Apple本周开始销售Ember的温控旅行杯travelMug2,最近增加了对iPhone、iPad和Mac上“查找我”应用程序的支持。这款马克杯于今年早些时候推出,在美国Apple在线商店的售价为192.99美元。站长网2023-05-25 10:18:310000百度智能云发布曦灵数字人、代码助手Comate等11款AI原生应用
在2023年的百度云智大会上,百度智能云发布了一个名为“AI原生应用Family”的全新产品系列。这个系列提供了11款适用于服务营销、办公提效和生产优化等领域的产品。站长网2023-09-05 10:42:440000小米向MIX Fold 3推送澎湃OS正式版
小米为小米MIXFold3折叠屏手机推送了澎湃OS正式版更新,版本号为1.0.2.0.UMVCNXM,安装包大小为6.4GB。该更新带来了一系列新功能和新特性,包括底层重构、跨端智联和全域安全等方面的优化。此外,本次升级还带来了面向全球化的生命感美学,动效、色彩系统、界面、通知等全部进行了重构,为用户带来全新的系统美学体验。0001





