谷歌Gemini1.5新功能揭秘:上下文挑战重现准确性
站长网2024-02-21 09:26:370阅
近日,Google Gemini1.5推出了一项令人瞩目的技术突破,该版本引入了一个拥有高达一百万个令牌的上下文窗口功能。这项新功能旨在处理完整的书籍甚至电影,其准确性关注。
尽管Gemini1.5的上下文窗口容量庞大,但可能仍存在不准确再现信息的可能性。在“海底捞针”测试中,该系统需要提取多达100条特定信息,但平均准确度仅在60%至70这项任务相对于复杂文档的摘要撰写而言仍然要简单一些。
值得一提的是,在谷歌对维克多·雨果的《悲惨世界》进行的更复杂的测试中,他们提出了100个问题,共涉及710,000个标记,并使用“归因于已识别来源”的方法进行答案评估。结果显示,在人工评估中,80% 的答案可归因于源文档,而在机器评估中则有91% 的答案可归因于源文档。然而,这一基准倾向目前的权威及其与原著作者之间存在细微的差异。

在“大海捞针”测试中,模型必须在上下文窗口中找到一条信息。这与LLM的实际应用场景关系不大。 |图片:谷歌
尽管社交媒体上对Gemini1.5的积极评价络并不绝,但即将对其准确性进行更深入的评估。大多数评论焦点于功能测试,缺乏对源材料的深入了解。如果信息检索的可信度不高,即使在复杂的查询下,巨大的上下文窗口可能仍然存在问题。
可见, Gemini1.5Pro 提供了令人印象深刻的技术突破,但在实践中,提取复杂的信息仍然是一个挑战。如果其可靠性低于90%,那么实际中的巨大容量的上下文窗口运用中可能并不具备专业的帮助。
0000
评论列表
共(0)条相关推荐
自研AI芯片,拉拢AMD英伟达,定制化的Copilot和100多项AI更新……微软从没如此可怕过
沸沸扬扬传了许久的微软首款自研AI芯片,今天终于向外界露出了庐山真面目。美西时间11月15日上午,2023MicrosoftIgnite大会在西雅图会议中心举行。这是微软针对IT专业人员、企业决策者和开发者召开的年度技术会议,主要介绍Azure云服务、企业级解决方案、以及Windows、微软365、Copilot等全套产品的最新动态,还包含了技术培训、产品演示和趋势讨论。站长网2023-11-16 15:59:100000Reddit与AI公司达成协议 内容支付“开采”AI培训数据
据知情人士透露,拥有“美版贴吧”之称的社交内容平台Reddit,已与一家未具名的人工智能科技巨头签署内容许可协议。该协议价值6000万美元,允许对方基于Reddit海量用户生成内容开发训练自己的AI模型,每年续签。在ChatGPT风靡全球的背景下,内容平台与AI企业之间的数据共享经济正在兴起。类似Reddit的内容生态,拥有政治、经济、娱乐等上亿帖子,成为AI企业垂涎的高质量训练数据来源。站长网2024-02-18 09:32:060000ChatGPT,取代工作or生产力神器?清华校友联手发文:AI时代怎么选工作
清华校友团队最新成果发现:写作、咨询、编程等相关自由职业最终可能被AI取代,而且更关键的是,AI能力一旦超过某个「拐点」,对就业市场的冲击将一发不可收拾。自2022年11月30日发布以来,ChatGPT的月活跃用户数量已经达到大约1亿人,创造了最快增长的消费类应用纪录。虽然AI极大地提高了人们的工作效率。但随着对不同领域的渗透,促使人们重新审视「技术取代」的问题。0000小米平板7曝光:全系适配小米SU7 即插即用
快科技5月3日消息,据智慧皮卡丘”爆料,小米平板7系列将会在第三季度发布。这一代亮点之一就是全系适配小米SU7,支持即插即用,可以在挂载后排当做控制、娱乐屏。连接后可通过澎湃OS接入原生车机系统,后排乘客能自主调节副驾座椅与空调,选择导航目的地与路线方案,或充当影音娱乐屏,支持超30项控车功能。站长网2024-05-03 22:33:570000英伟达AI游戏引擎炸场CES!NPC与玩家实时交互,对话动作流畅似真人
《赛博朋克2077》里的NPC,已经会和玩家对话了?还是根据玩家说的话实时响应,不用背剧本的那种?在CES2024的活动上,英伟达展示了利用AvatarCloudEngine(ACE)技术打造的最新成果。在ACE的加持之下,游戏中的人物纷纷“活”了起来,与其他角色甚至真人玩家一起对话交流,并根据对话内容做出动作。站长网2024-01-10 14:02:170000