谷歌发布Gemini 1.5技术报告 详细介绍Gemini 1.5 Pro模型架构改进情况
Google DeepMind 发布了一份长达150页的技术报告,详细介绍了 Gemini1.5Pro 和 Gemini1.5Flash 两个模型的性能特点和架构以及这个多模态大型模型的最新进展。
Gemini1.5于今年2月上线,通过工程优化、MoE架构等策略显著提升了性能和速度。该模型具有更长的上下文理解能力、更强的推理能力,能够处理跨模态内容。

报告中提到了两个新型号:
Gemini1.5Pro:在多个功能和基准测试中超越了2月份的版本。
Gemini1.5Flash:轻量级变体,旨在提高效率,性能损失极小。
Gemini1.5Flash是一个Transformer解码器模型,拥有超过2M的上下文和多模态功能,优化了张量处理单元(TPU)的使用,并减少了模型服务延迟。它能够并行计算注意力和前馈分量,使用高阶预处理方法提高训练质量。
报告还评估了Gemini1.5在处理英语、中文、日语和法语查询时,每个输出字符的平均时间。结果显示,Gemini1.5Flash在所有测试语言中实现了最快的生成速度。
此外,Gemini1.5在跨模态长上下文检索任务上实现了近乎完美的召回,提高了长文档问答、长视频问答和长上下文自动语音识别的最佳水平,并在一系列广泛的基准测试中匹配或超越了Gemini1.0Ultra的性能。
Gemini1.5Pro在5月份的版本在多个推理、编码、视觉和视频基准测试中进行了改进,而音频和翻译性能保持不变。
报告还介绍了Gemini1.5Pro数学增强版本的性能,它在Hendryck的MATH基准测试中取得了91.1%的突破性性能,解决了此前模型无法解决的亚太数学奥林匹克题目。
最后,报告强调了Gemini1.5在现实世界的应用潜力,展示了它与专业人士合作完成任务的能力,在10个不同的工作类别中可节省26-75%的时间。此外,该模型还能学会将英语翻译成Kalamang,一种只有不到200人使用的语言,与人类学习者的水平相当。
Gemini1.5的技术报告展示了谷歌在大型多模态模型领域的最新进展,其性能的提升和应用潜力为未来的AI技术发展提供了新的方向。
详细报告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
算力资源稀缺!OpenAI计划自研芯片:解决GPU卡脖子问题
快科技10月6日消息,据国外媒体报道称,ChatGPT背后的OpenAI计划自研AI芯片,以解决其所依赖的AI芯片短缺以及成本高昂问题,甚至已经开始评估潜在的收购目标。据知情人士表示,OpenAI至少从去年就已经开始讨论各种方案解决AI芯片短缺问题,这些方案包括自研AI芯片、与英伟达等制造商展开更紧密合作、实现供应商多元化并最终超越英伟达等。站长网2023-10-06 21:55:220000CounterPoint:预计PC制造商将在2024年发布新的AI驱动的PC
全球个人电脑(PC)市场在经历连续八个季度的下滑后,终于在2023年第四季度迎来一丝曙光。虽然出货量同比仍旧下降了0.2%,但这标志着跌幅减缓,为未来复苏带来了希望。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-01-19 16:32:380000谷歌ai垄断?谷歌每月向三星支付“巨额费用”,让其预装Gemini
继Android系统、Chrome浏览器等应用之后,谷歌又为他们的Gemini预装花费了“巨额费用”……当地时间21日,在美国华盛顿特区联邦法院进行的谷歌搜索市场反垄断案的初次庭审中,美国司法部表示:“谷歌为了让自家的AI模型Gemini成为三星设备的默认助手,每个月都向三星支付‘巨额资金’”,并称这种行为是“典型的垄断企业策略”。0000Anthropic 开始给 Claude 搞“语音模式”了
Anthropic已开始为其Claude聊天机器人应用程序推出一项名为“语音模式”的新功能。根据Anthropic在社交平台X上的官方账号以及公司官网更新的文档,这项“语音模式”(目前为测试版)允许Claude移动应用用户与Claude进行“完整的语音对话”。该功能将在接下来的几周内以英文形式陆续上线。站长网2025-05-28 16:57:180000B站“亮底牌”,靠大开环直播导流打赢双11?
平台血拼低价,双11再起波澜,B站也在暗处悄悄使劲。9月,B站推出直播带货超新星计划,为UP主对接货源,持续开放各品类的招商。一个月后,B站陆续对外发布消息,称双11期间将为电商平台导流。站长网2023-11-06 17:11:470000